- Blog | Générateur Vidéo Sora 2
- Guide de Prompting Veo 3.1 : Maîtrisez la Génération Vidéo
Guide de Prompting Veo 3.1 : Maîtrisez la Génération Vidéo
1. L'anatomie d'un prompt parfait
Pour générer systématiquement des vidéos de haute qualité, vous devez fournir au modèle un plan clair. Contrairement aux anciens modèles qui devinent votre intention, Veo 3.1 suit les instructions beaucoup mieux lorsqu'elles sont structurées logiquement.
Un prompt robuste repose sur quatre piliers non négociables :
Sujet (Qui/Quoi)
Définissez clairement le point focal. Est-ce une personne, un objet, un animal ou une forme abstraite ?
- Faible : "Un homme."
- Fort : "Un homme vêtu de vêtements usés, le visage marqué par le soleil."
Contexte (Où/Quand)
Plantez le décor. Décrivez l'environnement, l'heure de la journée et les éléments d'arrière-plan.
- Faible : "Dans un désert."
- Fort : "Un désert ouvert s'étendant à l'infini, l'horizon miroitant de chaleur sous un ciel bleu pâle."
Action (Faisant quoi)
Décrivez le mouvement et le comportement. Veo 3.1 excelle dans la physique et le mouvement, soyez donc précis.
- Faible : "Marche."
- Fort : "Marche lentement en boitant, levant une main pour protéger ses yeux."
Style (Apparence et sensation)
Dirigez l'esthétique. Utilisez des termes cinématographiques, des styles artistiques ou des genres de films.
- Exemples : "Cinématographique", "Réalisme brut", "Rendu 3D", "Film vintage 16mm", "Noir", "Style Studio Ghibli".
Modificateurs optionnels
- **Éclairage :_ "Lumière dure de midi", "Éclairage cinématographique doux", "Contre-jour néon".
- **Caméra :_ "Plan de drone", "À hauteur des yeux", "Travelling".
- **Audio :_ "Vent hurlant", "Dialogue", "Partition orchestrale".
2. Structure et longueur du prompt
Modulaire vs Narratif
Bien que Veo 3.1 comprenne le langage naturel, une structure modulaire offre souvent un meilleur contrôle sur des éléments spécifiques. En étiquetant vos sections, vous forcez le modèle à prêter attention à chaque composant.
Style Narratif :
Un homme en vêtements usés marche lentement à travers un désert ouvert... La caméra s'élève dans un plan de drone fluide...
Style Modulaire (Recommandé pour le contrôle) :
Contexte : Un pont couvert de givre à l'aube, arbres nus dans la brume. Sujet : Un homme dans un manteau lourd, mains dans les poches. Action : Marche lente, rythme réfléchi. Caméra : Plan large, à hauteur des yeux. Audio : Givre crissant, corbeau lointain.
La longueur "Boucle d'or"
- Trop court (<10 mots) : Risque de résultats génériques ; l'IA hallucine des détails que vous n'avez pas spécifiés.
- Trop long (>200 mots) : Embrouille le modèle ; les détails peuvent déteindre les uns sur les autres.
- Idéal : 3–6 phrases (100–150 mots). Cela fournit suffisamment de contexte pour une scène riche sans submerger la limite de tokens.
3. Contrôle cinématographique : Caméra et Mouvement
Veo 3.1 comprend le langage du cinéma. L'utilisation d'une terminologie précise fait la différence entre une vidéo amateur et une production hollywoodienne.
Plans de caméra (Cadrage)
Définissez quelle partie du sujet est visible.
- Plan Large (Wide Shot - WS) : Établit le décor.
- Plan Moyen (Medium Shot - MS) : Bon pour le dialogue et l'interaction.
- Gros Plan (Close-Up - CU) : Se concentre sur l'émotion ou le détail.
- Très Gros Plan (Extreme Close-Up - ECU) : Détails macro (par ex., un œil, une goutte de rosée).
Astuce : Placez vos instructions de cadrage au début. Commencer un prompt par "Gros plan de..." garantit que le modèle priorise cette composition immédiatement.
Mouvements de caméra
Décrivez comment la caméra voyage à travers l'espace.
- Statique : La caméra ne bouge pas.
- Panoramique/Inclinaison (Pan/Tilt) : La caméra pivote horizontalement ou verticalement depuis un point fixe.
- Dolly In/Out : La caméra se déplace physiquement vers ou loin du sujet.
- Tracking/Trucking : La caméra se déplace aux côtés du sujet.
- Grue/Jib : La caméra se déplace verticalement vers le haut ou le bas.
- FPV/Drone : Mouvement de vol rapide et fluide.
Angles de caméra
- Hauteur des yeux : Perspective neutre, humaine.
- Contre-plongée (Low Angle) : Rend le sujet puissant ou imposant.
- Plongée (High Angle) : Rend le sujet vulnérable ou petit.
- Vue de dessus/aérienne (Overhead) : Vue de haut en bas pour la géographie ou les motifs.
4. Vitrine d'exemples
Analysons des prompts réussis pour voir ces principes en action.
Exemple A : L'ouverture cinématographique
Prompt :
Un homme en vêtements usés marche lentement à travers un désert ouvert, une main levée pour protéger son visage du soleil. La caméra commence à hauteur d'épaule derrière lui, puis s'élève dans un mouvement fluide de type drone vers un plan large zénithal, révélant le vaste paysage vide s'étendant à l'infini dans toutes les directions. L'horizon miroite de chaleur sous un ciel bleu pâle. Style : Cinématographique, tendu, minimaliste. Audio : Une musique de film à suspense montant lentement, superposée de cordes basses et d'impulsions subtiles sous le silence.
Analyse : Le prompt dicte explicitement le mouvement de la caméra ("commence à hauteur d'épaule... s'élève dans un mouvement fluide de type drone"). Cela empêche l'IA de choisir un angle aléatoire et garantit que la révélation du paysage se produit exactement comme indiqué.
Exemple B : Détail atmosphérique
Prompt :
Contexte : Un pont couvert de givre à l'aube, avec des arbres nus s'estompant dans la brume au loin. Sujet : Un homme avec ses mains fourrées dans les poches d'un manteau lourd. Action : Il marche lentement sur le pont à un rythme non pressé et réfléchi. Style : Cinématographique. Composition : Plan large, hauteur des yeux. Éclairage et Ambiance : Lumière pâle du matin brillant faiblement à travers un brouillard doux et bouclant qui s'accroche aux rampes du pont. Audio : Pas faibles crissant sur le givre, respirations régulières dans l'air froid, et le croassement lointain d'un corbeau résonnant à travers le silence.
Analyse : En divisant le prompt en Contexte, Sujet et Ambiance, l'utilisateur s'assure que le brouillard, l'éclairage et le paysage sonore sont rendus avec une haute fidélité.
Exemple C : Cinématographie de produit
Prompt :
Une montre connectée élégante repose sur un rocher accidenté près du bord d'une falaise de montagne. La caméra commence près, puis recule dans un plan de drone fluide et continu. Alors qu'elle s'élève, un vaste paysage alpin se déploie—pics déchiquetés, brume roulant dans la vallée, et lumière dorée du lever de soleil inondant tout. Le ton est cinématographique et épique, soulignant le contraste entre la technologie moderne et la nature indomptée.
Analyse : Ceci démontre la transition Macro vers Large. Veo 3.1 gère le changement d'échelle d'une petite montre à une chaîne de montagnes massive sans perdre la cohérence.
Exemple D : Émotions via Visuels (Montrer, ne pas dire)
Prompt :
Plan large. Style : cinématographique. Un diner au coin d'une rue brille vivement sur une rue sombre et vide la nuit. À l'intérieur, trois clients sont assis au long comptoir—deux hommes en costumes et chapeaux, une femme en robe rouge, tous regardant silencieusement devant eux. Un serveur est assis tranquillement derrière le comptoir, évitant le contact visuel. L'intérieur est austère et propre, éclairé par une lumière chaude au plafond qui se déverse sur le trottoir. Dehors, les vitrines reflètent des bâtiments vides teintés de vert et une route calme et vide. Audio : vent fort dehors.
Analyse : Ce prompt recrée l'ambiance de Nighthawks d'Edward Hopper. Remarquez qu'il ne dit jamais "solitaire" ou "triste". Il décrit des signaux visuels (éviter le contact visuel, rue vide, intérieur austère) pour évoquer le sentiment.
5. Flux de travail avancés : I2V et Cadres D/F
Veo 3.1 offre trois modes de génération distincts. Choisir le bon est critique pour votre cas d'utilisation.
| Exigence Créative | Texte-vers-Vidéo (T2V) | Image-vers-Vidéo (I2V) | Cadre Début/Fin (S/E) |
|---|---|---|---|
| Concept | Générer à partir de zéro en utilisant uniquement des mots. | Animer une seule image de référence statique. | Interpoler une vidéo entre deux images spécifiques. |
| Liberté | Élevée. Idéal pour de nouvelles idées et explorer des concepts. | Faible. Contraint par l'image d'entrée. | Modérée. Contraint par deux points finaux. |
| Cohérence | Faible. Les personnages peuvent varier entre les plans. | Optimale. Ancre les détails du personnage/objet. | Élevée. Garantit que A et B correspondent. |
| Cas d'usage | Brainstorming, scènes générales. | Animer des photos, logos, peintures. | Boucles transparentes, morphings, transitions spécifiques. |
Exemple Image-vers-Vidéo (I2V)
L'I2V est parfait pour animer des logos ou une image de marque où le design doit rester exact.
Étape 1 : L'image d'entrée
Un sac fourre-tout élégant et moderne avec un logo de montagne propre et minimaliste...
Étape 2 : Le Prompt de Mouvement
Le logo de montagne sur le sac s'anime subtilement, avec des lignes propres traçant les pics. La caméra zoome lentement, se concentrant sur le mouvement. Audio : Un léger bruit de souffle alors que les lignes s'animent, suivi d'un clic doux et satisfaisant.
Exemple Cadre Début/Fin (S/E)
Ce flux de travail permet des transformations "magiques" ou des rythmes narratifs spécifiques où vous devez aboutir à un état précis.
Étape 1 : Cadre de Départ (Pièce Vide)

Étape 2 : Cadre de Fin (Pièce Meublée)

Étape 3 : Le Prompt Pont
Une vague d'énergie rapide et chatoyante traverse la pièce, laissant une traînée de particules étincelantes dans son sillage. Au cours des secondes suivantes, ces particules s'unissent et construisent élégamment les meubles et les décorations...
6. Conseils de pro pour l'optimisation
Nombre d'objets et Complexité
Veo 3.1 gère les foules mieux que les modèles précédents, mais il a encore des limites.
- Zone Sûre : Jusqu'à ~15 objets distincts du même type.
- Zone de Danger : Foules complexes avec des interactions spécifiques et individuelles.
- Stratégie : Si vous avez besoin d'un nombre spécifique (par ex., "Six lanternes"), placez ce nombre en premier dans le prompt ou souligné dans la ligne du sujet.
Exemple : "Seulement six lanternes..."
Répétition vs Variation
Ne spammez pas les mots-clés.
- Mauvais : "La pluie tombe. La pluie goutte. La pluie frappe le sol. Pluie forte." (Cela crée du bruit).
- Bon : "Une bruine froide tombe. Des gouttelettes tapotent contre le métal rouillé. Un éclat d'eau reflète les enseignes au néon." (Cela crée de la nuance).
Ton et Style
Écrivez au Présent. Veo 3.1 simule un flux en temps réel.
- Au lieu de "L'homme sautera", écrivez "L'homme saute".
- Décrivez le sentiment visuellement. Ne dites pas juste "effrayant" ; dites "Des ombres profondes cachent les coins, des lumières vacillantes créent un malaise".
Conclusion
Maîtriser Veo 3.1 consiste à traduire votre imagination dans le langage visuel spécifique que le modèle comprend. Commencez par les piliers centraux (Sujet, Contexte, Action, Style), expérimentez avec votre langage de caméra, et utilisez les flux de travail I2V et S/E avancés pour verrouiller la cohérence.
Check-list pour chaque prompt :
- Ai-je défini le sujet clairement ?
- L'arrière-plan/contexte est-il spécifié ?
- Y a-t-il une action ou un mouvement spécifique ?
- Ai-je défini l'angle de caméra et l'éclairage ?
- Le paysage audio est-il décrit ?
En cochant ces cases, vous passez de la "génération de vidéo" à la "réalisation d'IA", obtenant des résultats vraiment cinématographiques et contrôlables.

