Кавычки рисуют субтитры. Двоеточие — нет
Главная боль Veo 3, которую обсуждают все практики: при диалоге на экране сами собой появляются субтитры, которые невозможно убрать постфактум. Причина контринтуитивна — ей противоречит всё, чему учат в промптинге.
Если взять реплику в кавычки — Veo 3 решает, что текст нужно показать на экране. Решение: писать речь через двоеточие без кавычек.
- ❌
A barista says: "Welcome in"— кавычки провоцируют субтитры - ✅
A barista says: Welcome in— чистый звук без текста на экране
Это подтверждается в гайде Replicate и десятке других руководств 2026 года. Приём работает стабильнее любого другого.
Тройная защита от субтитров
Одного двоеточия иногда мало. Рабочая связка из трёх уровней:
- Реплика через двоеточие без кавычек (как выше)
- В конце основного промпта —
(no subtitles) - В поле негативного промпта —
no subtitles, no text, no captions
Если субтитры всё равно пролезают, практики советуют буквально продублировать в промпте: No subtitles. No subtitles! — модель реагирует на повтор-акцент.
Тишина в промпте ≠ тишина в видео
Важный факт, который ломает ожидания: если не прописать звук, Veo 3 досочинит его сам. Документированный кейс из гайда Replicate — для сцены стендапа модель самостоятельно добавила live studio audience (смех зала), которого никто не просил.
Вывод: звук нужно задавать всегда, даже если хочешь тишину. Иначе получишь галлюцинированный эмбиент, который испортит дубль. В промпте звук описывается явными метками:
Ambient: quiet cafe room tone— фоновая атмосфераSFX: a soft cup placed on the counter— точечный эффектNo background music, no extra speech— явный запрет лишнего
Точность важнее абстракции: не «spooky sounds», а faint transformer buzz, occasional metal creak, low ventilation hum.
Потолок — 5 звуковых слоёв
Veo 3 надёжно держит 3–5 звуковых элементов в одном клипе. Больше — аудио ломается: реплики накладываются друг на друга, отдельные звуки пропадают. Безопасный набор для короткого ролика: один диалог + один ключевой SFX + один эмбиент-фон.
Чтобы модель поняла, что главное на переднем плане, а что фоном, используй слова-маркеры аудио-иерархии:
cuts through— звук на переднем плане (важный SFX)in the distance— фоновый звук (эмбиент)
Пример: a cup placed on the counter cuts through, faint espresso machine hiss in the distance — модель понимает, что стук чашки громче, чем гул кофемашины.
Лип-синк требует крупности, а русские имена — транскрипции
Два прикладных правила для речи:
Крупность кадра. Для синхрона губ нужен medium shot или close-up, где рот персонажа чётко виден. На общем плане лип-синк разваливается.
Длина реплики под 8 секунд. Клип Veo 3 — 8 секунд. Если впихнуть длинную реплику, персонаж начнёт тараторить. Правило: одна короткая фраза на клип, с паузой в начале — the line begins after a brief pause.
Русский язык — через транскрипцию. Veo 3 подбирает акцент и лип-синк под язык реплики автоматически, но качество русского лип-синка ниже английского, а имена он коверкает. Решение из гайда Replicate — писать сложные слова фонетически: не «Фёдоров», а foh-duh-rov. Это особенно важно для русских имён и терминов.
Порядок блоков промпта
Veo 3 лучше всего читает промпт в строгом порядке. Каждый блок — на своём месте:
- Subject — кто/что в кадре (
a friendly barista with short curly hair) - Scene / Context — где (
in a cozy sunlit cafe) - Action — что делает (
looks at the camera, smiles) - Camera — план и движение (
medium shot, shallow depth of field) - Lighting / Ambiance — свет (
warm morning golden light) - Audio — в самом конце: диалог через двоеточие, затем Ambient, затем SFX
Veo 3 почти детерминирован — один и тот же промпт даёт почти идентичный результат (в отличие от Midjourney или Flux). Поэтому для серии клипов с одним персонажем дословно копируй его описание в каждый промпт — лицо и одежда сохранятся.
8 секунд — потолок одного клипа
Veo 3 генерирует клипы по 8 секунд (есть опции 4 и 6). Для длинных сцен — функция Scene Extension: финальные кадры клипа становятся входом для следующего, сцена продолжается без склейки. Разрешение — 720p, 1080p или 4K. Поддерживается image-to-video — оживление статичного кадра.
Без VPN из России
Veo 3 напрямую в России не работает: блокируется и по IP, и по биллингу — VPN обходит только IP, но российские карты всё равно не проходят. Рабочие пути:
- Veo 3 через genova-ai.ru — запуск в браузере без ручного VPN, рублёвая оплата за токены
- Платёжные посредники для оплаты зарубежного аккаунта Google
Для русскоязычного контента genova-ai.ru — самый простой путь: тот же промпт, но без возни с VPN и зарубежной картой.
Типичные провалы и что чинит
| Симптом | Что в промпте чинит |
|---|---|
| На экране появились субтитры | Реплика через двоеточие БЕЗ кавычек + (no subtitles) + негатив no subtitles, no text |
| Слышен смех/звук, которого не просил | Всегда задавай Ambient и SFX явно — иначе Veo досочинит |
| Персонаж тараторит | Сократи реплику до одной короткой фразы под 8 секунд |
| Лип-синк не попадает | Сними medium shot или close-up, не общий план |
| Русское имя коверкается | Запиши его транскрипцией: foh-duh-rov вместо «Фёдоров» |
| Аудио каша | Не больше 5 звуковых слоёв; используй cuts through / in the distance |
| Персонаж меняет лицо между клипами | Дословно копируй описание персонажа — Veo детерминирован |