- Блог - Генератор видео Sora 2
- Руководство по промптингу Veo 3.1: Мастерство видеогенерации
Руководство по промптингу Veo 3.1: Мастерство видеогенерации
1. Анатомия идеального промпта
Чтобы стабильно создавать высококачественные видео, вы должны предоставить модели четкий план. В отличие от старых моделей, которые угадывают ваше намерение, Veo 3.1 гораздо лучше следует инструкциям, когда они структурированы логически.
Надежный промпт (запрос) строится на четырех незыблемых столпах:
Субъект (Subject) (Кто/Что)
Четко определите фокус. Это человек, объект, животное или абстрактная форма?
- Слабо: "Мужчина."
- Сильно: "Мужчина в поношенной одежде, лицо обветрено солнцем."
Контекст (Context) (Где/Когда)
Задайте сцену. Опишите окружение, время суток и фоновые элементы.
- Слабо: "В пустыне."
- Сильно: "Открытая пустыня, простирающаяся бесконечно, горизонт мерцает от жары под бледно-голубым небом."
Действие (Action) (Что делает)
Опишите движение и поведение. Veo 3.1 превосходно справляется с физикой и движением, поэтому будьте конкретны.
- Слабо: "Идет."
- Сильно: "Идет медленно, прихрамывая, подняв одну руку, чтобы прикрыть глаза."
Стиль (Style) (Вид и ощущение)
Направьте эстетику. Используйте кинематографические термины, художественные стили или жанры фильмов.
- Примеры: "Cinematic" (Кинематографичный), "Gritty realism" (Суровый реализм), "3D render" (3D-рендер), "Vintage 16mm film" (Винтажная 16-мм пленка), "Noir" (Нуар), "Studio Ghibli style" (Стиль студии Ghibli).
Опциональные модификаторы
- Освещение: "Hard noon light" (Жесткий полуденный свет), "Soft cinematic lighting" (Мягкое кинематографичное освещение), "Neon rim light" (Неоновая контурная подсветка).
- Камера: "Drone shot" (Съемка с дрона), "Eye-level" (На уровне глаз), "Tracking shot" (Следящая съемка).
- Аудио: "Wind howling" (Вой ветра), "Dialogue" (Диалог), "Orchestral score" (Оркестровая партитура).
2. Структура и длина промпта
Модульный против Повествовательного
Хотя Veo 3.1 понимает естественный язык, модульная структура часто дает лучший контроль над конкретными элементами. Помечая разделы, вы заставляете модель обращать внимание на каждый компонент.
Повествовательный стиль:
Мужчина в поношенной одежде медленно идет по открытой пустыне... Камера поднимается в плавном полете дрона...
Модульный стиль (Рекомендуется для контроля):
Context: A frost-covered bridge at dawn, bare trees in mist. (Покрытый инеем мост на рассвете, голые деревья в тумане.) Subject: A man in a heavy coat, hands in pockets. (Мужчина в тяжелом пальто, руки в карманах.) Action: Walking slowly, reflective pace. (Идет медленно, задумчивым темпом.) Camera: Wide shot, eye level. (Широкий план, на уровне глаз.) Audio: Crunching frost, distant crow. (Хруст инея, далекая ворона.)
Эффект "Златовласки" (Идеальная длина)
- Слишком коротко (<10 слов): Риск получить банальные результаты; ИИ галлюцинирует детали, которые вы не указали.
- Слишком длинно (>200 слов): Сбивает модель с толку; детали могут смешиваться друг с другом.
- Идеально: 3–6 предложений (100–150 слов). Это обеспечивает достаточно контекста для богатой сцены, не перегружая лимит токенов.
3. Кинематографичный контроль: Камера и Движение
Veo 3.1 понимает язык кино. Использование точной терминологии — это разница между домашним видео и голливудским производством.
Планы камеры (Кадрирование)
Определите, какая часть субъекта видна.
- Wide Shot (WS): Устанавливает место действия.
- Medium Shot (MS): Хорошо для диалогов и взаимодействия.
- Close-Up (CU): Фокусируется на эмоциях или деталях.
- Extreme Close-Up (ECU): макро-детали (например, глаз, капля росы).
Совет: Ставьте инструкции по кадрированию в начало. Начало промпта с "Close-up of..." гарантирует, что модель немедленно расставит приоритеты для этой композиции.
Движения камеры
Опишите, как камера перемещается в пространстве.
- Static: Камера не двигается.
- Pan/Tilt: Камера вращается горизонтально или вертикально из фиксированной точки.
- Dolly In/Out: Камера физически движется к объекту или от него.
- Tracking/Trucking: Камера движется рядом с объектом.
- Crane/Jib: Камера движется вертикально вверх или вниз.
- FPV/Drone: Быстрое, плавное движение полета.
Ракурсы камеры
- Eye-Level: Нейтральная, человеческая перспектива.
- Low Angle: Делает субъект мощным или внушительным.
- High Angle: Делает субъект уязвимым или маленьким.
- Overhead/Bird's Eye: Вид сверху вниз для географии или узоров.
4. Демонстрация примеров
Давайте проанализируем успешные промпты, чтобы увидеть эти принципы в действии.
Пример А: Кинематографичное открытие
Промпт:
A man in worn clothing walks slowly across an open desert, one hand raised to shield his face from the sun. The camera begins at shoulder height behind him, then rises in a smooth, drone-style lift into an overhead wide shot, revealing the vast, empty landscape stretching endlessly in all directions. The horizon shimmers with heat beneath a pale blue sky. Style: Cinematic, tense, minimalist. Audio: A slow-building thriller film score, layered with low strings and subtle pulses beneath the silence.
Анализ: Промпт явно диктует движение камеры ("начинается на уровне плеч... поднимается в плавном полете в стиле дрона"). Это не дает ИИ выбрать случайный ракурс и гарантирует, что раскрытие пейзажа произойдет именно так, как указано.
Пример B: Атмосферные детали
Промпт:
Context: A frost-covered bridge at dawn, with bare trees fading into the mist in the distance. Subject: A man with his hands tucked into the pockets of a heavy coat. Action: He walks slowly across the bridge at an unhurried, reflective pace. Style: Cinematic. Composition: Wide shot, eye level. Lighting and Ambiance: Pale morning light glowing faintly through soft, curling fog that clings to the bridge railings. Audio: Faint footsteps crunching on frost, steady breaths in the cold air, and the distant caw of a crow echoing across the stillness.
Анализ: Разбивая промпт на Context (Контекст), Subject (Субъект) и Ambiance (Атмосфера), пользователь гарантирует, что туман, освещение и звуковой ландшафт будут переданы с высокой точностью.
Пример C: Продуктовая кинематография
Промпт:
A sleek smartwatch sits on a rugged rock near the edge of a mountain cliff. The camera begins close, then pulls back in a smooth, continuous drone-style shot. As it rises, a vast alpine landscape unfolds—jagged peaks, mist rolling through the valley, and golden sunrise light washing over everything. The tone is cinematic and epic, emphasizing the contrast between modern technology and untamed nature.
Анализ: Это демонстрирует переход от Макро к Широкому плану. Veo 3.1 справляется с изменением масштаба от крошечных часов до массивной горной цепи без потери согласованности.
Пример D: Эмоции через Визуал (Показывай, не рассказывай)
Промпт:
Wide shot. Style: cinematic. A curved corner diner glows brightly on a dark, empty street at night. Inside, three customers sit at the long counter—two men in suits and fedoras, one woman in a red dress, all quietly facing forward. A server sits quietly behind the counter, avoiding eye contact. The interior is stark and clean, lit with warm overhead light that spills out onto the sidewalk. Outside, the storefront windows reflect empty green-tinted buildings and a quiet, empty road. Audio: strong wind outside.
Анализ: Этот промпт воссоздает настроение картины Эдварда Хоппера "Полуночники". Заметьте, что никогда не говорится "одинокий" или "грустный". Описываются визуальные сигналы (избегание зрительного контакта, пустая улица, строгий интерьер), чтобы вызвать это чувство.
5. Продвинутые рабочие процессы: I2V и S/E кадры
Veo 3.1 предлагает три различных режима генерации. Выбор правильного режима критически важен для вашего случая использования.
| Творческое требование | Текст-в-Видео (T2V) | Изображение-в-Видео (I2V) | Стартовый/Конечный кадр (S/E) |
|---|---|---|---|
| Концепт | Создание с нуля, используя только слова. | Анимация одного статического изображения. | Интерполяция видео между двумя конкретными изображениями. |
| Свобода | Высокая. Лучше всего для новых идей и исследования концепций. | Низкая. Ограничена входным изображением. | Средняя. Ограничена двумя конечными точками. |
| Согласованность | Низкая. Персонажи могут меняться между кадрами. | Оптимальная. Закрепляет детали персонажа/объекта. | Высокая. Гарантирует совпадение точек А и Б. |
| Сценарий использования | Мозговой штурм, общие сцены. | Анимация фото, логотипов, картин. | Бесшовные циклы, морфинг, специфические переходы. |
Пример Изображение-в-Видео (I2V)
I2V идеально подходит для анимации логотипов или брендинга, где дизайн должен оставаться точным.
Шаг 1: Входное изображение
A sleek, modern tote bag with a clean, minimalist mountain logo...
Шаг 2: Промпт движения
The mountain logo on the tote bag subtly animates, with clean lines tracing the peaks. The camera slowly zooms in, focusing on the movement. Audio: A gentle whooshing sound as the lines animate, followed by a soft, satisfying click.
Пример Стартовый/Конечный кадр (S/E)
Этот рабочий процесс позволяет выполнять "магические" трансформации или специфические сюжетные ходы, где вам нужно прийти к определенному состоянию.
Шаг 1: Стартовый кадр (Пустая комната)

Шаг 2: Конечный кадр (Меблированная комната)

Шаг 3: Связующий промпт
A fast, shimmering wave of energy washes across the room, leaving a trail of sparkling particles in its wake. Over the next seconds, these particles coalesce and elegantly construct the furniture and decorations...
6. Профессиональные советы для оптимизации
Количество объектов и сложность
Veo 3.1 обрабатывает толпы лучше, чем предыдущие модели, но у него все еще есть пределы.
- Безопасная зона: До ~15 различных объектов одного типа.
- Опасная зона: Сложные толпы со специфическими, индивидуальными взаимодействиями.
- Стратегия: Если вам нужно определенное количество (например, "Шесть фонарей"), поместите это число первым в промпте или выделите его в строке субъекта.
Пример: "Только шесть фонарей..."
Повторение против Вариации
Не спамьте ключевыми словами.
- Плохо: "Rain falls. Rain drips. Rain hits ground. Heavy rain." (Это создает шум).
- Хорошо: "Cold drizzle falls. Droplets tap against rusted metal. A sheen of water reflects the neon signs." (Это создает нюансы).
Тон и Стиль
Пишите в настоящем времени. Veo 3.1 симулирует поток в реальном времени.
- Вместо "The man will jump" (Мужчина прыгнет), пишите "The man jumps" (Мужчина прыгает).
- Описывайте чувство визуально. Не говорите просто "страшно"; говорите "Deep shadows conceal the corners, flickering lights create unease" (Глубокие тени скрывают углы, мерцающий свет создает беспокойство).
Заключение
Освоение Veo 3.1 — это перевод вашего воображения на конкретный визуальный язык, который понимает модель. Начните с основных столпов (Субъект, Контекст, Действие, Стиль), экспериментируйте с языком камеры и используйте продвинутые рабочие процессы I2V и S/E, чтобы закрепить согласованность.
Чек-лист для каждого промпта:
- Ясно ли я определил субъект?
- Указан ли фон/контекст?
- Есть ли конкретное действие или движение?
- Определил ли я ракурс камеры и освещение?
- Описан ли звуковой ландшафт?
Отмечая эти пункты, вы переходите от "генерации видео" к "режиссуре ИИ", достигая результатов, которые действительно кинематографичны и управляемы.

