V
Veo 3Видео с диалогамиСреднийОбновлено 29 мая 2026 г.

Veo 3 промпт: персонаж говорит со звуком и без субтитров (главный трюк — двоеточие)

Главная боль Veo 3 — субтитры, которые сами лезут на экран при диалоге, и звук, который модель досочиняет, если его не прописать. Контринтуитивное решение: речь пишется через двоеточие БЕЗ кавычек (кавычки и провоцируют субтитры), звук задаётся всегда явно, аудио-слоёв — не больше пяти. Этот промпт собран под Veo 3 с нативным звуком: бариста говорит в камеру с лип-синком и чистым аудио без текста на экране. Дальше — порядок блоков, трюк с русскими именами через транскрипцию и доступ без VPN из России.

Пример результата, сгенерированный по этому промпту через Veo 3 · кликни для увеличения

Кавычки рисуют субтитры. Двоеточие — нет

Главная боль Veo 3, которую обсуждают все практики: при диалоге на экране сами собой появляются субтитры, которые невозможно убрать постфактум. Причина контринтуитивна — ей противоречит всё, чему учат в промптинге.

Если взять реплику в кавычки — Veo 3 решает, что текст нужно показать на экране. Решение: писать речь через двоеточие без кавычек.

  • A barista says: "Welcome in" — кавычки провоцируют субтитры
  • A barista says: Welcome in — чистый звук без текста на экране

Это подтверждается в гайде Replicate и десятке других руководств 2026 года. Приём работает стабильнее любого другого.

Тройная защита от субтитров

Одного двоеточия иногда мало. Рабочая связка из трёх уровней:

  1. Реплика через двоеточие без кавычек (как выше)
  2. В конце основного промпта — (no subtitles)
  3. В поле негативного промптаno subtitles, no text, no captions

Если субтитры всё равно пролезают, практики советуют буквально продублировать в промпте: No subtitles. No subtitles! — модель реагирует на повтор-акцент.

Тишина в промпте ≠ тишина в видео

Важный факт, который ломает ожидания: если не прописать звук, Veo 3 досочинит его сам. Документированный кейс из гайда Replicate — для сцены стендапа модель самостоятельно добавила live studio audience (смех зала), которого никто не просил.

Вывод: звук нужно задавать всегда, даже если хочешь тишину. Иначе получишь галлюцинированный эмбиент, который испортит дубль. В промпте звук описывается явными метками:

  • Ambient: quiet cafe room tone — фоновая атмосфера
  • SFX: a soft cup placed on the counter — точечный эффект
  • No background music, no extra speech — явный запрет лишнего

Точность важнее абстракции: не «spooky sounds», а faint transformer buzz, occasional metal creak, low ventilation hum.

Потолок — 5 звуковых слоёв

Veo 3 надёжно держит 3–5 звуковых элементов в одном клипе. Больше — аудио ломается: реплики накладываются друг на друга, отдельные звуки пропадают. Безопасный набор для короткого ролика: один диалог + один ключевой SFX + один эмбиент-фон.

Чтобы модель поняла, что главное на переднем плане, а что фоном, используй слова-маркеры аудио-иерархии:

  • cuts through — звук на переднем плане (важный SFX)
  • in the distance — фоновый звук (эмбиент)

Пример: a cup placed on the counter cuts through, faint espresso machine hiss in the distance — модель понимает, что стук чашки громче, чем гул кофемашины.

Лип-синк требует крупности, а русские имена — транскрипции

Два прикладных правила для речи:

Крупность кадра. Для синхрона губ нужен medium shot или close-up, где рот персонажа чётко виден. На общем плане лип-синк разваливается.

Длина реплики под 8 секунд. Клип Veo 3 — 8 секунд. Если впихнуть длинную реплику, персонаж начнёт тараторить. Правило: одна короткая фраза на клип, с паузой в начале — the line begins after a brief pause.

Русский язык — через транскрипцию. Veo 3 подбирает акцент и лип-синк под язык реплики автоматически, но качество русского лип-синка ниже английского, а имена он коверкает. Решение из гайда Replicate — писать сложные слова фонетически: не «Фёдоров», а foh-duh-rov. Это особенно важно для русских имён и терминов.

Порядок блоков промпта

Veo 3 лучше всего читает промпт в строгом порядке. Каждый блок — на своём месте:

  1. Subject — кто/что в кадре (a friendly barista with short curly hair)
  2. Scene / Context — где (in a cozy sunlit cafe)
  3. Action — что делает (looks at the camera, smiles)
  4. Camera — план и движение (medium shot, shallow depth of field)
  5. Lighting / Ambiance — свет (warm morning golden light)
  6. Audio — в самом конце: диалог через двоеточие, затем Ambient, затем SFX

Veo 3 почти детерминирован — один и тот же промпт даёт почти идентичный результат (в отличие от Midjourney или Flux). Поэтому для серии клипов с одним персонажем дословно копируй его описание в каждый промпт — лицо и одежда сохранятся.

8 секунд — потолок одного клипа

Veo 3 генерирует клипы по 8 секунд (есть опции 4 и 6). Для длинных сцен — функция Scene Extension: финальные кадры клипа становятся входом для следующего, сцена продолжается без склейки. Разрешение — 720p, 1080p или 4K. Поддерживается image-to-video — оживление статичного кадра.

Без VPN из России

Veo 3 напрямую в России не работает: блокируется и по IP, и по биллингу — VPN обходит только IP, но российские карты всё равно не проходят. Рабочие пути:

  • Veo 3 через genova-ai.ru — запуск в браузере без ручного VPN, рублёвая оплата за токены
  • Платёжные посредники для оплаты зарубежного аккаунта Google

Для русскоязычного контента genova-ai.ru — самый простой путь: тот же промпт, но без возни с VPN и зарубежной картой.

Типичные провалы и что чинит

СимптомЧто в промпте чинит
На экране появились субтитрыРеплика через двоеточие БЕЗ кавычек + (no subtitles) + негатив no subtitles, no text
Слышен смех/звук, которого не просилВсегда задавай Ambient и SFX явно — иначе Veo досочинит
Персонаж тараторитСократи реплику до одной короткой фразы под 8 секунд
Лип-синк не попадаетСними medium shot или close-up, не общий план
Русское имя коверкаетсяЗапиши его транскрипцией: foh-duh-rov вместо «Фёдоров»
Аудио кашаНе больше 5 звуковых слоёв; используй cuts through / in the distance
Персонаж меняет лицо между клипамиДословно копируй описание персонажа — Veo детерминирован
📋 Промпт
Medium shot, a friendly barista with short curly hair stands behind a wooden counter in a cozy sunlit cafe, warm morning golden light through the window, shallow depth of field. She looks directly at the camera, smiles, and says in a warm upbeat tone: Welcome in — our single-origin pour-over is ready today. Natural lip sync, the line begins after a brief pause. Ambient: quiet cafe room tone, faint espresso machine hiss in the distance. SFX: a soft cup placed on the counter cuts through. No background music, no extra speech. (no subtitles)

Где использовать этот промпт

Цена:Без VPN на genova-ai.ru — рублёвая оплата за токены за 8-секундный клип. С VPN: Google AI Pro $19.99/мес (Veo в Gemini и Flow с лимитом) либо API по секундам через Vertex AI.
Для РФ:Работает в РФVeo 3 блокируется в РФ и по IP, и по биллингу — VPN обходит только IP, карты МИР не принимаются. Простой путь — genova-ai.ru: тот же промпт, браузер, рубли.

Как использовать — пошагово

  1. 1
    Вставь промпт в Veo 3
    Большое поле текста в Gemini app, Google Flow или на genova-ai.ru/generate/video/veo-3 (без VPN). Реплику оставь через двоеточие без кавычек — это и есть защита от субтитров.
  2. 2
    Добавь негативный промпт
    Если есть поле негатива — впиши `no subtitles, no text, no captions`. Это второй уровень защиты от текста на экране поверх `(no subtitles)` в основном промпте.
  3. 3
    Проверь крупность и длину реплики
    Для лип-синка нужен medium shot или close-up. Реплика — одна короткая фраза, иначе персонаж затараторит на 8-секундном клипе.
  4. 4
    Жди ~2-3 минуты
    Veo 3 почти детерминирован — один промпт даёт почти тот же результат. Для серии клипов с одним персонажем копируй его описание дословно.

Разбор промпта по параметрам

ПараметрЧто делает
says in a warm upbeat tone: Welcome in (без кавычек)Двоеточие без кавычек = чистый звук речи без субтитров на экране. Кавычки заставляют Veo 3 нарисовать текст — это главная причина непрошеных субтитров.
(no subtitles)Явный запрет субтитров в конце промпта. Второй уровень защиты поверх синтаксиса с двоеточием. Третий — `no subtitles, no text` в поле негатива.
Natural lip sync, the line begins after a brief pause«Natural lip sync» усиливает синхрон губ, пауза в начале не даёт персонажу затараторить с первого кадра — реплика звучит естественнее.
Ambient: quiet cafe room toneФоновый звук задаётся явно — иначе Veo досочинит случайный эмбиент (документированный кейс — смех зала, которого не просили).
a soft cup placed on the counter cuts through«Cuts through» помечает звук как передний план. Маркер аудио-иерархии — модель делает этот SFX громче фонового гула.
faint espresso machine hiss in the distance«In the distance» = фоновый звук. Вместе с «cuts through» создаёт правильную глубину аудио: чашка громче, кофемашина тише.
No background music, no extra speechЯвные запреты лишнего. Без них Veo может добавить музыку или вторую реплику, ломая чистоту дубля. Всего звуковых слоёв — не больше пяти.

Готовые вариации

Реклама продукта (founder в студии)
Короткий промо-ролик со звуком для лендинга или соцсетей
Medium shot of a confident founder in a bright minimal studio holding a sleek product box, soft diffused key light, shallow depth of field. He looks at camera and says in a calm confident tone: We turned one photo into a full launch video in minutes. Natural lip sync, line begins after a brief pause. Ambient: quiet studio room tone. SFX: a subtle product-handling sound cuts through. No background music, no extra speech. (no subtitles)
Подкаст / talking head
Говорящая голова для YouTube-интро или подкаста
Close-up of a woman in a grey sweater with dark tousled hair in an updo, sitting in a warm home-studio with bokeh string lights behind, soft window light. She looks directly into the camera, leans slightly forward and says in a friendly conversational tone: Today we break down how AI video actually works. Natural lip sync, relaxed pacing. Ambient: soft room tone. SFX: faint mic handling noise in the distance. No music, no extra speech. (no subtitles)
Диалог двух персонажей
Сцена с двумя репликами — для скетчей и сценок
Medium two-shot in a cozy kitchen, morning light. A man in an apron flips a pancake and says in a cheerful tone: Breakfast is almost ready. A woman holding a mug replies in a warm amused tone: You said that ten minutes ago. Natural lip sync for both, clear turn-taking with a short pause between lines. Ambient: gentle kitchen room tone, faint sizzling pan in the distance. SFX: a spatula tap cuts through. No music. (no subtitles)
Реплика на русском (с транскрипцией имени)
Русскоязычный диалог — приёмы против кривого лип-синка
Close-up of a young man in a hoodie in a softly lit room, looking at camera, natural warm light. He smiles and says in Russian in a calm friendly tone: Привет, меня зовут Фёдор, фоh-duhr — сегодня покажу как это работает. Natural lip sync, line begins after a brief pause, accurate Russian pronunciation. Ambient: quiet room tone. SFX: none. No background music, no extra speech. (no subtitles)
Image-to-video с речью
Оживить готовый портрет — заставить говорить
Animate this portrait into a talking clip. Keep the face, clothing and background identical to the input image. Action: the person looks at camera and says in a warm tone: Thanks for watching — subscribe for more. Camera: subtle static medium shot, no drift. Natural lip sync, line begins after a brief pause. Ambient: soft matching room tone. No music, no extra speech. (no subtitles)

Этот промпт для других инструментов

V
Veo 3.1

Свежее поколение: лучше контроль персонажа через референсы (Ingredients), вертикаль 9:16 для Shorts/TikTok, точнее лип-синк. Те же приёмы с двоеточием работают.

Тот же промпт. Добавь reference-изображения персонажа для консистентности между клипами.
Sora 2 (OpenAI)
Sora 2 (OpenAI)

Тоже с нативным звуком и диалогами. Сильна в креативе и сюрреализме. Доступ через ChatGPT Plus/Pro. Лучше отвечает на структуру what/how/mood.

Реплику тоже пиши без кавычек. Sora лучше держит длинные планы (10+ сек), но дороже.
Kling 3.0
Kling 3.0

Работает в России без VPN, но БЕЗ нативного звука — только видео. Диалог и SFX придётся добавлять отдельно в Premiere/CapCut.

Убери аудио-блок из промпта — оставь только subject/scene/action/camera/lighting. Звук накладывай в монтаже.

Частые вопросы

Как убрать субтитры, которые Veo 3 рисует сам?

Главный приём — писать реплику через двоеточие БЕЗ кавычек: `says: Welcome in`, а не `says: "Welcome in"`. Кавычки и провоцируют субтитры. Добавь `(no subtitles)` в конец промпта и `no subtitles, no text, no captions` в поле негатива. Если всё равно лезут — продублируй `No subtitles. No subtitles!` в промпте.

Почему в ролике слышен звук, который я не просил?

Если не задать звук явно, Veo 3 досочиняет его сам — известный кейс, когда модель добавила смех зала в сцену стендапа. Всегда прописывай Ambient (фон) и SFX (эффекты) явно, даже если хочешь тишину — тогда укажи `No background music, no extra speech`.

Почему персонаж тараторит и не успевает договорить?

Клип Veo 3 — 8 секунд. Длинная реплика в него не влезает, и модель ускоряет речь. Решение: одна короткая фраза на клип плюс `the line begins after a brief pause`. Для длинного монолога — несколько клипов через Scene Extension.

Как заставить Veo 3 правильно говорить по-русски?

Veo 3 подбирает акцент и лип-синк под язык реплики, но русский лип-синк хуже английского, а имена модель коверкает. Пиши сложные слова и имена транскрипцией: `foh-duhr` вместо «Фёдор». И снимай крупным планом (medium/close-up) — на общем плане синхрон губ разваливается.

Работает ли Veo 3 в России и как оплатить?

Напрямую нет — Veo 3 блокируется и по IP, и по биллингу. VPN обходит только блок по IP, но российские карты МИР всё равно не проходят. Простой путь — genova-ai.ru: запуск в браузере без VPN и рублёвая оплата за токены. Альтернатива — платёжные посредники для зарубежного Google-аккаунта.

Сколько звуков можно добавить в один клип?

Veo 3 надёжно держит 3–5 звуковых слоёв. Больше — аудио ломается, реплики накладываются. Оптимум для короткого ролика: один диалог + один ключевой SFX + один эмбиент. Маркируй передний план словом `cuts through`, фон — `in the distance`.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Готов попробовать? Копируй промпт выше и вставляй в Veo 3.

Открыть Veo 3