🎉 期間限定セール: 40% OFF

Veo 3.1 プロンプトガイド:動画生成をマスターする

on 2 months ago

1. 完璧なプロンプトの構造

高品質な動画を一貫して生成するには、モデルに明確な設計図を提供する必要があります。意図を推測する古いモデルとは異なり、Veo 3.1は論理的に構成された指示に従う能力が大幅に向上しています。

堅牢なプロンプトは、以下の4つの妥協できない柱の上に成り立っています。

主題 (Subject)(誰/何)

焦点を明確に定義します。それは人物、物体、動物、それとも抽象的な形ですか?

  • 弱い例: "A man."(男性)
  • 強い例: "A man in worn clothing, face weathered by the sun."(使い古した服を着て、顔が日に焼けた男性)

文脈 (Context)(どこ/いつ)

場面を設定します。環境、時間帯、背景要素を記述します。

  • 弱い例: "In a desert."(砂漠で)
  • 強い例: "An open desert stretching endlessly, horizon shimmering with heat under a pale blue sky."(見渡す限りの砂漠が広がり、淡い青空の下で地平線が熱で揺らいでいる)

動作 (Action)(何をしている)

動きや振る舞いを記述します。Veo 3.1は物理法則や動きの表現に優れているため、具体的であることが重要です。

  • 弱い例: "Walking."(歩いている)
  • 強い例: "Walks slowly with a limp, raising one hand to shield his eyes."(足を引きずりながらゆっくりと歩き、片手を上げて目を覆っている)

スタイル (Style)(見た目と雰囲気)

美観を指示します。映画用語、アートスタイル、映画ジャンルを使用します。

  • 例: "Cinematic"(映画的)、"Gritty realism"(生々しいリアリズム)、"3D render"(3Dレンダリング)、"Vintage 16mm film"(ヴィンテージ16mmフィルム)、"Noir"(ノワール)、"Studio Ghibli style"(スタジオジブリ風)。

オプションの修飾子

  • 照明: "Hard noon light"(真昼の強い光)、"Soft cinematic lighting"(柔らかな映画的照明)、"Neon rim light"(ネオンのリムライト)。
  • カメラ: "Drone shot"(ドローンショット)、"Eye-level"(アイレベル)、"Tracking shot"(トラッキングショット)。
  • 音声: "Wind howling"(風の唸り)、"Dialogue"(会話)、"Orchestral score"(オーケストラスコア)。

2. プロンプトの構造と長さ

モジュラー型 vs 物語型

Veo 3.1は自然言語を理解しますが、多くの場合、モジュラー構造の方が特定の要素をより細かく制御できます。セクションにラベルを付けることで、モデルに各構成要素へ注意を向けさせることができます。

物語型スタイル:

使い古した服を着た男性が、開かれた砂漠をゆっくりと歩いている... カメラが滑らかなドローンショットで上昇する...

モジュラー型スタイル(制御におすすめ):

Context: A frost-covered bridge at dawn, bare trees in mist.(夜明けの霜に覆われた橋、霧の中の裸木) Subject: A man in a heavy coat, hands in pockets.(厚いコートを着てポケットに手を入れた男性) Action: Walking slowly, reflective pace.(ゆっくりと歩き、思慮深いペース) Camera: Wide shot, eye level.(ワイドショット、アイレベル) Audio: Crunching frost, distant crow.(霜を踏む音、遠くのカラス)

「ちょうどいい」長さ

  • 短すぎる(10語未満): 一般的な結果になりがちです。指定しなかった詳細をAIが勝手に作り出してしまいます。
  • 長すぎる(200語以上): モデルを混乱させます。詳細が互いに混ざり合ってしまうことがあります。
  • 理想的: 3~6文(100~150語)。これにより、トークン制限を超えずに、豊かなシーンのための十分なコンテキストを提供できます。

3. 映画的な制御:カメラと動き

Veo 3.1は映画の言語を理解しています。正確な用語を使用することで、ホームビデオとハリウッド作品ほどの違いが生まれます。

カメラショット(フレーミング)

被写体がどの程度見えるかを定義します。

  • Wide Shot (WS): 設定を確立します。
  • Medium Shot (MS): 会話や相互作用に適しています。
  • Close-Up (CU): 感情や詳細に焦点を当てます。
  • Extreme Close-Up (ECU): マクロな詳細(例:目、露の雫)。

ヒント: フレーミングの指示は最初に持ってきましょう。"Close-up of..."(〜のクローズアップ)でプロンプトを始めると、モデルはその構図を即座に優先します。

カメラの動き

カメラが空間をどのように移動するかを記述します。

  • Static: カメラは動きません。
  • Pan/Tilt: カメラが固定点から水平または垂直に回転します。
  • Dolly In/Out: カメラが物理的に被写体に近づいたり離れたりします。
  • Tracking/Trucking: カメラが被写体と一緒に移動します。
  • Crane/Jib: カメラが垂直に上下移動します。
  • FPV/Drone: 高速で流れるような飛行動作。

カメラアングル

  • Eye-Level: 中立的な人間の視点。
  • Low Angle: 被写体を力強く、または威圧的に見せます。
  • High Angle: 被写体を脆弱、または小さく見せます。
  • Overhead/Bird's Eye: 地形やパターンのための真上からの視点。

4. 作例ショーケース

成功したプロンプトを分析して、これらの原則がどのように機能するかを見てみましょう。

例 A:映画的なオープニング

プロンプト:

A man in worn clothing walks slowly across an open desert, one hand raised to shield his face from the sun. The camera begins at shoulder height behind him, then rises in a smooth, drone-style lift into an overhead wide shot, revealing the vast, empty landscape stretching endlessly in all directions. The horizon shimmers with heat beneath a pale blue sky. Style: Cinematic, tense, minimalist. Audio: A slow-building thriller film score, layered with low strings and subtle pulses beneath the silence.

分析: プロンプトはカメラの動きを明示的に指示しています(「肩の高さから始まり...滑らかなドローン風のリフトで上昇」)。これにより、AIがランダムなアングルを選ぶのを防ぎ、風景の公開が指示通りに行われることを保証します。

例 B:雰囲気のある詳細

プロンプト:

Context: A frost-covered bridge at dawn, with bare trees fading into the mist in the distance. Subject: A man with his hands tucked into the pockets of a heavy coat. Action: He walks slowly across the bridge at an unhurried, reflective pace. Style: Cinematic. Composition: Wide shot, eye level. Lighting and Ambiance: Pale morning light glowing faintly through soft, curling fog that clings to the bridge railings. Audio: Faint footsteps crunching on frost, steady breaths in the cold air, and the distant caw of a crow echoing across the stillness.

分析: プロンプトを ContextSubjectAmbiance に分割することで、ユーザーは霧、照明、音響風景が高い忠実度でレンダリングされることを確実にしています。

例 C:製品シネマトグラフィー

プロンプト:

A sleek smartwatch sits on a rugged rock near the edge of a mountain cliff. The camera begins close, then pulls back in a smooth, continuous drone-style shot. As it rises, a vast alpine landscape unfolds—jagged peaks, mist rolling through the valley, and golden sunrise light washing over everything. The tone is cinematic and epic, emphasizing the contrast between modern technology and untamed nature.

分析: これは マクロからワイド への移行を示しています。Veo 3.1は、一貫性を失うことなく、小さな時計から巨大な山脈へのスケールの変化を処理します。

例 D:ビジュアルによる感情表現(語らずに見せる)

プロンプト:

Wide shot. Style: cinematic. A curved corner diner glows brightly on a dark, empty street at night. Inside, three customers sit at the long counter—two men in suits and fedoras, one woman in a red dress, all quietly facing forward. A server sits quietly behind the counter, avoiding eye contact. The interior is stark and clean, lit with warm overhead light that spills out onto the sidewalk. Outside, the storefront windows reflect empty green-tinted buildings and a quiet, empty road. Audio: strong wind outside.

分析: このプロンプトは、エドワード・ホッパーの『ナイトホークス』の雰囲気を再現しています。「寂しい」や「悲しい」とは一度も言っていません。視覚的な合図(視線を避ける、空の通り、殺風景な店内)を記述して、その感情を呼び起こしています。


5. 高度なワークフロー:I2V と S/E フレーム

Veo 3.1には3つの異なる生成モードがあります。適切なモードを選択することが、使用例にとって重要です。

クリエイティブ要件テキストから動画 (T2V)画像から動画 (I2V)開始/終了フレーム (S/E)
コンセプト言葉だけでゼロから生成。1枚の静止参照画像をアニメーション化。2つの特定の画像間を動画で補完。
自由度高。 新しいアイデアやコンセプトの探索に最適。低。 入力画像に制約される。中。 2つのエンドポイントに制約される。
一貫性低。ショット間でキャラクターが異なる場合がある。最適。 キャラクターやオブジェクトの詳細を固定。高。 AとBが一致することを保証。
使用例ブレインストーミング、一般的なシーン。写真、ロゴ、絵画のアニメーション化。シームレスなループ、モーフィング、特定のトランジション。

画像から動画 (I2V) の例

I2Vは、デザインを正確に保つ必要があるロゴやブランディングのアニメーションに最適です。

ステップ 1:入力画像

A sleek, modern tote bag with a clean, minimalist mountain logo... Tote Bag Input

ステップ 2:モーションプロンプト

The mountain logo on the tote bag subtly animates, with clean lines tracing the peaks. The camera slowly zooms in, focusing on the movement. Audio: A gentle whooshing sound as the lines animate, followed by a soft, satisfying click.

開始/終了フレーム (S/E) の例

このワークフローは、特定の状態で終わる必要がある「魔法のような」変身や特定のストーリーテリングのビートを可能にします。

ステップ 1:開始フレーム(何もない部屋) Empty Room

ステップ 2:終了フレーム(家具付きの部屋) Furnished Room

ステップ 3:ブリッジプロンプト

A fast, shimmering wave of energy washes across the room, leaving a trail of sparkling particles in its wake. Over the next seconds, these particles coalesce and elegantly construct the furniture and decorations...


6. 最適化のためのプロのヒント

オブジェクトの数と複雑さ

Veo 3.1は以前のモデルよりも群衆の処理に優れていますが、まだ限界があります。

  • 安全圏: 同じタイプのオブジェクトが最大約15個まで。
  • 危険圏: 特定の個別の相互作用を伴う複雑な群衆。
  • 戦略: 特定の数(例:「6つのランタン」)が必要な場合は、その数をプロンプトの最初に置くか、主題の行で強調してください。

例:「6つのランタンだけが...」

繰り返し vs バリエーション

キーワードをスパムのように繰り返さないでください。

  • 悪い例: "Rain falls. Rain drips. Rain hits ground. Heavy rain."(これはノイズを生みます)。
  • 良い例: "Cold drizzle falls. Droplets tap against rusted metal. A sheen of water reflects the neon signs."(これはニュアンスを生みます)。

トーンとスタイル

現在形で書いてください。Veo 3.1はリアルタイムのフィードをシミュレートします。

  • "The man will jump"(男はジャンプするだろう)ではなく、"The man jumps"(男はジャンプする)と書きます。
  • 感情を視覚的に説明してください。「怖い」と言うのではなく、「深い影が隅を隠し、明滅する光が不安を生み出す」と言ってください。


結論

Veo 3.1をマスターするということは、あなたの想像力をモデルが理解できる特定の視覚言語に翻訳することです。中核となる柱(主題、文脈、動作、スタイル)から始め、カメラ言語を試し、高度なI2VおよびS/Eワークフローを使用して一貫性を固定しましょう。

すべてのプロンプトのチェックリスト:

  1. 主題を明確に定義しましたか?
  2. 背景/文脈は指定されていますか?
  3. 特定の動作や動きはありますか?
  4. カメラアングルと照明を定義しましたか?
  5. オーディオランドスケープ(音響風景)は記述されていますか?

これらのボックスにチェックを入れることで、「動画の生成」から「AIの演出」へと移行し、真に映画的で制御可能な結果を得ることができます。