🎉 Blitzangebot: -40%

Veo 3.1 Prompting Guide: Meisterhafte Videogenerierung

on 13 days ago

Veo 3.1 Prompting-Guide: Meisterhafte Videogenerierung

1. Die Anatomie eines perfekten Prompts

Um konsistent qualitativ hochwertige Videos zu generieren, müssen Sie dem Modell einen klaren Bauplan liefern. Im Gegensatz zu älteren Modellen, die Ihre Absichten erraten, befolgt Veo 3.1 Anweisungen deutlich besser, wenn sie logisch strukturiert sind.

Ein robuster Prompt baut auf vier nicht verhandelbaren Säulen auf:

Subjekt (Wer/Was)

Definieren Sie den Fokuspunkt klar. Ist es eine Person, ein Objekt, ein Tier oder eine abstrakte Form?

  • Schwach: "Ein Mann."
  • Stark: "Ein Mann in abgenutzter Kleidung, das Gesicht von der Sonne gegerbt."

Kontext (Wo/Wann)

Setzen Sie die Szene. Beschreiben Sie die Umgebung, die Tageszeit und Hintergrundelemente.

  • Schwach: "In einer Wüste."
  • Stark: "Eine offene Wüste, die sich endlos erstreckt, der Horizont flimmert vor Hitze unter einem blassblauen Himmel."

Aktion (Was geschieht)

Beschreiben Sie Bewegung und Verhalten. Veo 3.1 zeichnet sich durch Physik und Bewegung aus, seien Sie also spezifisch.

  • Schwach: "Gehen."
  • Stark: "Geht langsam und hinkend, hebt eine Hand, um seine Augen abzuschirmen."

Stil (Aussehen und Gefühl)

Bestimmen Sie die Ästhetik. Verwenden Sie filmische Begriffe, Kunststile oder Filmgenres.

  • Beispiele: "Cinematic", "Gritty Realism", "3D-Render", "Vintage 16mm Film", "Noir", "Studio Ghibli Stil".

Optionale Modifikatoren

  • Beleuchtung: "Hartes Mittagslicht", "Weiche filmische Beleuchtung", "Neon-Kantenlicht".
  • Kamera: "Drohnenaufnahme", "Auf Augenhöhe", "Verfolgungsaufnahme".
  • Audio: "Wind heult", "Dialog", "Orchesterpartitur".

2. Prompt-Struktur und Länge

Modular vs. Narrativ

Obwohl Veo 3.1 natürliche Sprache versteht, bietet eine modulare Struktur oft eine bessere Kontrolle über bestimmte Elemente. Durch das Beschriften Ihrer Abschnitte zwingen Sie das Modell, auf jede Komponente zu achten.

Narrativer Stil:

Ein Mann in abgenutzter Kleidung geht langsam durch eine offene Wüste... Die Kamera steigt in einer sanften Drohnenaufnahme auf...

Modularer Stil (Empfohlen für Kontrolle):

Kontext: Eine frostbedeckte Brücke im Morgengrauen, kahle Bäume im Nebel. Subjekt: Ein Mann in einem schweren Mantel, Hände in den Taschen. Aktion: Langsames Gehen, nachdenkliches Tempo. Kamera: Weitwinkelaufnahme, auf Augenhöhe. Audio: Knirschender Frost, entfernte Krähe.

Die "Goldlöckchen"-Länge

  • Zu kurz (<10 Wörter): Riskiert generische Ergebnisse; die KI halluziniert Details, die Sie nicht angegeben haben.
  • Zu lang (>200 Wörter): Verwirrt das Modell; Details können ineinander übergehen.
  • Ideal: 3–6 Sätze (100–150 Wörter). Dies bietet genügend Kontext für eine reichhaltige Szene, ohne das Token-Limit zu überfordern.

3. Filmische Kontrolle: Kamera und Bewegung

Veo 3.1 versteht die Sprache des Films. Die Verwendung präziser Terminologie macht den Unterschied zwischen einem Heimvideo und einer Hollywood-Produktion aus.

Kameraeinstellungen (Framing)

Definieren Sie, wie viel vom Subjekt sichtbar ist.

  • Totalaufnahme (Wide Shot - WS): Etabliert den Schauplatz.
  • Halbnahe Einstellung (Medium Shot - MS): Gut für Dialoge und Interaktion.
  • Nahaufnahme (Close-Up - CU): Konzentriert sich auf Emotionen oder Details.
  • Detailaufnahme (Extreme Close-Up - ECU): Makro-Details (z.B. ein Auge, ein Tautropfen).

Tipp: Stellen Sie Ihre Framing-Anweisungen an den Anfang. Wenn Sie einen Prompt mit "Nahaufnahme von..." beginnen, priorisiert das Modell diese Komposition sofort.

Kamerabewegungen

Beschreiben Sie, wie sich die Kamera durch den Raum bewegt.

  • Statisch: Kamera bewegt sich nicht.
  • Schwenk/Neigung (Pan/Tilt): Kamera dreht sich horizontal oder vertikal von einem festen Punkt.
  • Dolly In/Out: Kamera bewegt sich physisch auf das Subjekt zu oder davon weg.
  • Tracking/Trucking: Kamera bewegt sich neben dem Subjekt her.
  • Kran/Jib: Kamera bewegt sich vertikal nach oben oder unten.
  • FPV/Drohne: Schnelle, flüssige Flugbewegung.

Kamerawinkel

  • Auf Augenhöhe: Neutrale, menschliche Perspektive.
  • Untersicht (Low Angle): Lässt das Subjekt mächtig oder imposant wirken.
  • Obersicht (High Angle): Lässt das Subjekt verletzlich oder klein wirken.
  • Vogelperspektive (Overhead): Blick von oben für Geografie oder Muster.

4. Beispiel-Showcase

Lassen Sie uns erfolgreiche Prompts analysieren, um diese Prinzipien in Aktion zu sehen.

Beispiel A: Der filmische Einstieg

Prompt:

Ein Mann in abgenutzter Kleidung geht langsam durch eine offene Wüste, eine Hand erhoben, um sein Gesicht vor der Sonne zu schützen. Die Kamera beginnt auf Schulterhöhe hinter ihm und steigt dann in einem sanften, drohnenartigen Lift in eine Überkopf-Weitwinkelaufnahme auf, die die riesige, leere Landschaft enthüllt, die sich endlos in alle Richtungen erstreckt. Der Horizont flimmert vor Hitze unter einem blassblauen Himmel. Stil: Filmisch, angespannt, minimalistisch. Audio: Eine langsam aufbauende Thriller-Filmmusik, geschichtet mit tiefen Streichern und subtilen Impulsen unter der Stille.

Analyse: Der Prompt diktiert explizit die Kamerabewegung ("beginnt auf Schulterhöhe... steigt in einem sanften drohnenartigen Lift auf"). Dies verhindert, dass die KI einen zufälligen Winkel wählt, und stellt sicher, dass die Enthüllung der Landschaft genau wie angewiesen erfolgt.

Beispiel B: Atmosphärisches Detail

Prompt:

Kontext: Eine frostbedeckte Brücke im Morgengrauen, mit kahlen Bäumen, die in der Ferne im Nebel verschwinden. Subjekt: Ein Mann mit Händen in den Taschen eines schweren Mantels. Aktion: Er geht langsam in einem ungehetzten, nachdenklichen Tempo über die Brücke. Stil: Filmisch. Komposition: Weitwinkelaufnahme, auf Augenhöhe. Beleuchtung und Ambiente: Fahles Morgenlicht, das schwach durch weichen, kräuselnden Nebel leuchtet, der an den Brückengeländern haftet. Audio: Leise Schritte, die auf Frost knirschen, gleichmäßiges Atmen in der kalten Luft und das ferne Krächzen einer Krähe, das durch die Stille hallt.

Analyse: Durch die Aufteilung des Prompts in Kontext, Subjekt und Ambiente stellt der Benutzer sicher, dass Nebel, Beleuchtung und Klanglandschaft mit hoher Treue wiedergegeben werden.

Beispiel C: Produkt-Kinematografie

Prompt:

Eine elegante Smartwatch liegt auf einem schroffen Felsen am Rande einer Bergklippe. Die Kamera beginnt nah und zieht sich dann in einer sanften, kontinuierlichen Drohnenaufnahme zurück. Während sie aufsteigt, entfaltet sich eine gewaltige alpine Landschaft – zackige Gipfel, Nebel, der durch das Tal zieht, und goldenes Sonnenaufgangslicht, das alles überflutet. Der Ton ist filmisch und episch und betont den Kontrast zwischen moderner Technologie und ungezähmter Natur.

Analyse: Dies demonstriert den Übergang von Makro zu Weitwinkel. Veo 3.1 bewältigt die Maßstabsänderung von einer winzigen Uhr zu einer massiven Bergkette, ohne die Kohärenz zu verlieren.

Beispiel D: Emotionen durch visuelle Elemente (Zeigen, nicht erzählen)

Prompt:

Weitwinkelaufnahme. Stil: filmisch. Ein Diner an einer kurvigen Ecke leuchtet hell in einer dunklen, leeren Straße bei Nacht. Drinnen sitzen drei Kunden an der langen Theke – zwei Männer in Anzügen und Fedoras, eine Frau in einem roten Kleid, alle still nach vorne blickend. Ein Kellner sitzt still hinter der Theke und vermeidet Augenkontakt. Das Interieur ist karg und sauber, beleuchtet mit warmem Deckenlicht, das auf den Bürgersteig hinausfällt. Draußen spiegeln die Schaufenster leere grün getönte Gebäude und eine ruhige, leere Straße wider. Audio: starker Wind draußen.

Analyse: Dieser Prompt stellt die Stimmung von Edward Hoppers Nighthawks nach. Beachten Sie, dass nie "einsam" oder "traurig" gesagt wird. Es werden visuelle Hinweise (Vermeidung von Augenkontakt, leere Straße, karges Interieur) beschrieben, um das Gefühl hervorzurufen.


5. Fortgeschrittene Workflows: I2V und S/E Frames

Veo 3.1 bietet drei verschiedene Generierungsmodi. Die Wahl des richtigen Modus ist entscheidend für Ihren Anwendungsfall.

Kreative AnforderungText-zu-Video (T2V)Bild-zu-Video (I2V)Start/End-Frame (S/E)
KonzeptErstellung von Grund auf nur mit Worten.Animieren eines einzelnen statischen Referenzbildes.Interpolieren von Video zwischen zwei spezifischen Bildern.
FreiheitHoch. Am besten für neue Ideen und das Erkunden von Konzepten.Niedrig. Eingeschränkt durch das Eingabebild.Mittel. Eingeschränkt durch zwei Endpunkte.
KonsistenzNiedrig. Charaktere können zwischen den Aufnahmen variieren.Optimal. Verankert Charakter-/Objektdetails.Hoch. Garantiert, dass A und B übereinstimmen.
AnwendungsfallBrainstorming, allgemeine Szenen.Animieren von Fotos, Logos, Gemälden.Nahtlose Loops, Morphs, spezifische Übergänge.

Bild-zu-Video (I2V) Beispiel

I2V ist perfekt für die Animation von Logos oder Branding, wo das Design exakt bleiben muss.

Schritt 1: Das Eingabebild

Eine elegante, moderne Tragetasche mit einem sauberen, minimalistischen Berglogo... Tote Bag Input

Schritt 2: Der Bewegungs-Prompt

Das Berglogo auf der Tragetasche animiert sich subtil, mit klaren Linien, die die Gipfel nachzeichnen. Die Kamera zoomt langsam herein und fokussiert auf die Bewegung. Audio: Ein sanftes Rauschen, während die Linien animieren, gefolgt von einem weichen, befriedigenden Klicken.

Start/End-Frame (S/E) Beispiel

Dieser Workflow ermöglicht "magische" Transformationen oder spezifische Storytelling-Beats, bei denen Sie in einem bestimmten Zustand enden müssen.

Schritt 1: Start-Frame (Leerer Raum) Empty Room

Schritt 2: End-Frame (Möblierter Raum) Furnished Room

Schritt 3: Der Brücken-Prompt

Eine schnelle, schimmernde Energiewelle wäscht über den Raum und hinterlässt eine Spur funkelnder Partikel. In den nächsten Sekunden verbinden sich diese Partikel und konstruieren elegant die Möbel und Dekorationen...


6. Profi-Tipps zur Optimierung

Objektanzahl und Komplexität

Veo 3.1 bewältigt Menschenmengen besser als frühere Modelle, hat aber immer noch Grenzen.

  • Sichere Zone: Bis zu ~15 verschiedene Objekte desselben Typs.
  • Gefahrenzone: Komplexe Menschenmengen mit spezifischen, individuellen Interaktionen.
  • Strategie: Wenn Sie eine bestimmte Anzahl benötigen (z.B. "Sechs Laternen"), platzieren Sie diese Zahl zuerst im Prompt oder betonen Sie sie in der Subjektzeile.

Beispiel: "Nur sechs Laternen..."

Wiederholung vs. Variation

Spammen Sie keine Schlüsselwörter.

  • Schlecht: "Regen fällt. Regen tropft. Regen trifft Boden. Starker Regen." (Dies erzeugt Rauschen).
  • Gut: "Kalter Nieselregen fällt. Tröpfchen klopfen gegen verrostetes Metall. Ein Wasserfilm reflektiert die Neonschilder." (Dies erzeugt Nuancen).

Ton und Stil

Schreiben Sie im Präsens. Veo 3.1 simuliert einen Echtzeit-Feed.

  • Statt "Der Mann wird springen", schreiben Sie "Der Mann springt".
  • Beschreiben Sie das Gefühl visuell. Sagen Sie nicht einfach "gruselig"; sagen Sie "Tiefe Schatten verbergen die Ecken, flackernde Lichter erzeugen Unbehagen".


Fazit

Veo 3.1 zu meistern bedeutet, Ihre Vorstellungskraft in die spezifische visuelle Sprache zu übersetzen, die das Modell versteht. Beginnen Sie mit den Kernsäulen (Subjekt, Kontext, Aktion, Stil), experimentieren Sie mit Ihrer Kamerasprache und nutzen Sie die fortgeschrittenen I2V- und S/E-Workflows, um Konsistenz zu gewährleisten.

Checkliste für jeden Prompt:

  1. Habe ich das Subjekt klar definiert?
  2. Ist der Hintergrund/Kontext spezifiziert?
  3. Gibt es eine spezifische Aktion oder Bewegung?
  4. Habe ich den Kamerawinkel und die Beleuchtung definiert?
  5. Ist die Audio-Landschaft beschrieben?

Indem Sie diese Punkte abhaken, bewegen Sie sich vom "Video generieren" zum "Regie führen bei KI" und erzielen Ergebnisse, die wirklich filmisch und kontrollierbar sind.

Veo 3.1 Prompting Guide: Meisterhafte Videogenerierung | Sora 2