ElevenLabsОзвучка видеоПростойОбновлено 5 мая 2026 г.

Закадр для YouTube через ElevenLabs: где скрыты настройки которые делают разницу

Главная путаница: текстовое поле — это что произнесут, не описание голоса. Voice задаётся выбором Voice ID + 4 ползунками в UI. Этот промпт — заготовка с правильно расставленной пунктуацией (точка = пауза 600мс, запятая = 200мс) и конкретные настройки которые проверены на русском YouTube-контенте: Stability 35%, Similarity 75%, Multilingual v2 (не v3 — на русском нестабильна).

Профессиональный студийный микрофон с pop-фильтром на boom-arm, тёплый bokeh за окном — иллюстрация ElevenLabs-промпта для закадрового голоса YouTube — Пример результата, сгенерированный по этому промпту через ElevenLabs · кликни для увеличения

ElevenLabs устроен иначе чем картинки и видео

В генераторах картинок «промпт» — это длинный текстовый запрос, который превращается в изображение. У ElevenLabs всё работает наоборот: текст это то что произнесут, а голос задаётся через выбор Voice ID + 4 ползунка в UI. Описывать «warm confident baritone» в тексте бесполезно — модель просто прочитает эту фразу выбранным голосом.

Это главная путаница новичков. По обсуждениям на r/elevenlabs и Discord ElevenLabs — большинство «голос звучит плохо» решается не выбором другого голоса, а правильной настройкой Stability и пунктуацией в тексте.

Что реально влияет на звучание

Из официальных рекомендаций ElevenLabs Engineering Blog и тестов от Two Minute Papers на русском контенте:

Параметр	Что делает	Оптимум для YouTube
Stability	0% = максимум вариации интонации, 100% = монотонность	30-50% для живых видео, 60-70% для нейтрального диктора
Similarity Boost	Насколько близко к референсу. Высокое = «робот»	75% — компромисс
Style Exaggeration	Усиление эмоций. На русском часто ломает акцент	0% для русского, 30% для драматичного английского
Speaker Boost	Отделение голоса от шума, чище звук	ON — почти всегда
Model	Multilingual v2 vs v3	v2 для русского, v3 пока только английский нативно

На r/elevenlabs популярный совет: «Если голос звучит роботично — снижай Similarity до 60-65%, не повышай Stability». Stability как раз отвечает за живость, не за «качество».

Почему точки и запятые важнее описания «warm tone»

В ElevenLabs нет понимания английского/русского описания голоса в тексте — модель просто читает текст. Но пунктуация управляет интонацией напрямую:

Точка — пауза ~600мс, понижение интонации
Запятая — пауза ~200мс, лёгкая ремарка
Точка с запятой — пауза ~400мс, продолжение мысли
Тире — выделяет вставную часть, лёгкая интонация
Многоточие… — пауза с неуверенностью
Восклицание! — повышение интонации
Вопрос? — поднятие в конце

Текст «Это сработало. Невероятно.» звучит совсем не как «Это сработало, невероятно». Точка между ними даёт паузу драмы, запятая — гладкое продолжение. Это управляется не Voice ID, а пунктуацией.

Совет от ElevenLabs Discord (популярный пост 2025): «Готовь текст специально под TTS. Перепиши длинные предложения. Везде где хочешь паузу — ставь точку. Везде где хочешь акцент — ставь *курсив*. Это даёт 80% качества, остальное — Voice ID и Stability».

Eleven v3 и эмоциональные теги (октябрь 2025)

ElevenLabs v3 (выпущен октябрь 2025) добавил inline-теги прямо в текст:

[whispers] — шёпот: «[whispers] Не говори никому, но...»
[excited] — возбуждённо
[sad] — грустно
[happy] — счастливо
[angry] — злобно
[laughs] — смех (модель сама вставит звук смеха)
[sighs] — вздох
[pause] — длинная пауза (длиннее точки)

Но есть нюанс — на русском v3 пока нестабильна, теги срабатывают через раз. По обсуждениям на r/elevenlabs — для русского держись на v2, теги для английских проектов.

Какие русские голоса работают

По тестам на YouTube-каналах (anekdot.ru voiceovers, AI Voice Lab, Eleven Russian Voice Tests):

Мужские голоса (Multilingual v2):
- Adam — тёплый baritone, ~35 лет. Для документалок и tech-обзоров. Самый популярный для русского YouTube
- Antoni — универсальный, более молодой. Для lifestyle и повседневных тем
- George — глубокий, авторитетный. Для серьёзных тем и истории
- Brian — серьёзный, средне-низкий. Для бизнеса и финансов

Женские голоса:
- Rachel — взрослый профессиональный (35-40 лет). Для бизнеса, образовательного контента
- Bella — молодая, дружественная (25-30). Для лайфстайла, бьюти, влогов
- Sarah — зрелая уверенная. Для деловых обзоров
- Domi — энергичная, с лёгкой игрой. Для рекламы

Клонирование собственного голоса (Instant Voice Cloning) — доступно с Starter $5/мес. Профессиональное клонирование (PVC, нужно 30+ минут записи) — с Creator $22/мес. На русском PVC даёт почти неотличимое качество.

Темп речи в WPM (words per minute)

Это скрытая настройка через текст и Stability:

130-140 WPM — медленно, для аудиокниг и медитативного контента
140-150 WPM — оптимум для documentary YouTube. Слушатель успевает понимать
160-180 WPM — энергичный, для лайфстайла и tech-обзоров
190-210 WPM — реклама, тизеры. Только короткие ролики
>220 WPM — речь становится неразборчивой

ElevenLabs не имеет прямой настройки темпа. Контроль через: 1) выбор Voice ID (некоторые голоса быстрее по умолчанию) 2) Stability — высокая = ровный темп, низкая = вариативный 3) Структура текста — короткие предложения = быстрый темп ощущения.

Сравнение с альтернативами для русского

Сервис	Качество русского	Цена за час	Доступ из РФ
ElevenLabs Multilingual v2	9.5/10	≈$5-10 / час видео	VPN
Yandex SpeechKit	6/10	≈300-500 ₽/час	Прямой
Salute Speech (Sber)	5.5/10	бесплатно с лимитами	Прямой
Tinkoff Voicekit	6.5/10	бесплатно	Прямой
Smart-AI	9/10 (ElevenLabs API)	российский тариф	Прямой
PlayHT	8/10	$39/мес	VPN
Resemble AI	7.5/10	$19/мес	VPN

Для профессионального YouTube — ElevenLabs остаётся лидером по русскому. На genova-ai.ru голосовых моделей нет — нужен либо VPN на elevenlabs.io, либо российские реселлеры (Smart-AI, Arzamas).

Куда вставлять промпт в ElevenLabs UI

Структура интерфейса elevenlabs.io/app/speech-synthesis:

Поле UI	Что вставить
Большое поле текста (центр)	САМ ТЕКСТ который произнесут (не описание голоса!)
Voice (выпадающий список вверху)	Voice ID — выбрать из библиотеки или клонированный
Model (под Voice)	Eleven Multilingual v2 для русского
Stability slider	30-50%
Similarity Boost slider	75%
Style Exaggeration slider	0% для русского
Speaker Boost toggle	ON

Кнопка Generate → через 5-15 секунд получаешь MP3. Если хочешь повторить с другой эмоцией — изменяй Stability и кликай Generate снова (платится за каждую генерацию).

Сколько стоит озвучка часового видео

Часовое видео ≈ 7000-9000 слов ≈ 50-70К символов:

Free tier (10К симв/мес) — не хватит даже на 10-минутный ролик
Starter $5/мес (30К симв) — хватит на ~25 минут видео
Creator $22/мес (100К симв) — 1.5 часа в месяц + Voice Cloning
Pro $99/мес (500К симв) — ~7 часов в месяц + Professional Voice Cloning

Для канала с регулярным контентом 2-3 видео в неделю по 10 минут — Creator $22/мес оптимум. Если делаешь длинные документалки — Pro.

Через Smart-AI или другие российские реселлеры — рублёвая оплата, обычно ≈400-700 ₽ за час финального видео. Для разовых проектов выгоднее подписки.

YouTube AI Disclosure: что обязательно с 2025

С марта 2025 YouTube ввёл обязательную пометку для синтетического контента:

Обязательно: AI-озвучка реальных персон, AI-имитация известных голосов, deepfake-видео
Рекомендуется: AI-озвучка вымышленных персонажей, синтетический narration в news-контенте
Не нужно: AI-озвучка для educational, gaming, развлекательного контента где это очевидно

Пометка ставится в Studio → Detail → Altered content. Без неё за нарушение в news-категории — сначала warning, потом demonetization. Для educational и lifestyle — необязательно, но рекомендуется в описании ролика добавить «Озвучка через ElevenLabs».

Типичные провалы озвучки

Что слышно	Что чинит
Голос звучит «робот»	Снизить Similarity до 60-65%, НЕ повышать Stability
Слишком монотонно	Stability 30-40%, добавить пунктуации (точки, тире)
Скачки громкости	Speaker Boost ON, разбить длинные предложения
Странный акцент на русском	Style Exaggeration на 0%, Model = Multilingual v2 (не v3)
Глотает паузы	Между предложениями ставь точки, не запятые. [pause] для длинных пауз
Не успевает за текстом	Длинные сложные слова разбей с дефисом или пробелом

📋 Промпт

## Текст для озвучки

Вставь сюда свой текст для закадра. Например:

«В этом видео разберём три способа настроить ElevenLabs так, чтобы голос звучал живо. [pause] Первый способ — самый недооценённый. Это не выбор голоса, как многие думают, а правильная пунктуация в тексте.»

## Конфигурация (выставь в UI ElevenLabs ДО генерации)

**Voice ID:** Adam (тёплый baritone — для документалок) ИЛИ Antoni (универсальный) ИЛИ George (глубокий)

**Model:** Eleven Multilingual v2 для русского (НЕ v3 — на русском пока нестабильна)

**Settings:**
- Stability: 35% (живая интонация — выше 60% получишь монотонность)
- Similarity Boost: 75% (близко к референсу, но не «робот»)
- Style Exaggeration: 0% (для русского — выкл, иначе акцент уезжает)
- Speaker Boost: ON (чище отделение голоса)

## Текстовые трюки которые работают

1) **Точки и запятые управляют паузами**. Точка = ~600мс пауза, запятая = ~200мс. Если хочешь длиннее — поставь две точки или [pause]
2) **Курсив *слово*** — лёгкая эмфаза
3) **КАПС** — модель прочтёт как акцент, не как крик
4) **Тире — выделяет** вставную часть
5) Многоточие… создаёт неуверенность
6) Длинные предложения (>20 слов) разбивай — модель берёт «дыхание» на точках

## Эмоциональные теги (только Eleven v3 на английском)

Для русского пока не работают, но если переключишься на английский — `[whispers]`, `[excited]`, `[sad]`, `[laughs]`, `[sighs]` дают конкретную интонацию.

Где использовать этот промпт

Инструмент:ElevenLabs →

Цена:С VPN на elevenlabs.io: Free 10К симв/мес, Starter $5/мес 30К + Instant Voice Cloning, Creator $22/мес 100К + Professional Voice Cloning, Pro $99/мес 500К. На genova-ai.ru голосовых моделей нет.

Для РФ:Нужен VPNElevenLabs из России — VPN или российский реселлер (Smart-AI, Arzamas — рублёвая оплата за токены). Голосовых моделей на genova-ai.ru пока нет. Альтернативы без VPN с худшим качеством русского: Yandex SpeechKit, Salute Speech (Sber), Tinkoff Voicekit.

Как использовать — пошагово

1
Открой ElevenLabs
С VPN — elevenlabs.io/app/speech-synthesis. Без VPN из России — через российских реселлеров (Smart-AI, Arzamas). На genova-ai.ru голосовых моделей нет.
2
Выбери Voice + Model
Voice: Adam (тёплый baritone) для документалок, Antoni для лайфстайла, George для серьёзных тем. Model: Eleven Multilingual v2 (не v3 — на русском пока нестабильна).
3
Выстави настройки
Stability 30-50% (живая интонация), Similarity Boost 75%, Style Exaggeration 0% для русского, Speaker Boost ON. Эти 4 настройки делают 80% качества — Voice ID только остальные 20%.
4
Готовь текст под TTS
Точки = паузы 600мс, запятые = 200мс. Длинные предложения разбивай. Эмфаза через *курсив*. Длинные паузы — [pause]. Эмоциональные теги [whispers]/[excited] работают только в v3 и пока только на английском.

Разбор промпта по параметрам

Параметр	Что делает
Stability 35% (не 60-70%)	Главная ошибка новичков — крутить Stability на максимум для «качества». Stability отвечает за вариативность интонации, не за качество. Высокая = монотонный диктор, низкая = живая речь.
Similarity Boost 75%	Если голос «робот» — снижай этот ползунок до 60-65%, не повышай Stability. Высокий Similarity делает модель ближе к синтетическому референсу, что даёт «прямую линию» голоса.
Style Exaggeration 0% для русского	На русском Style Exaggeration ломает акцент — добавляет английскую мелодику. Включай только для драматичного английского контента.
Model = Multilingual v2, не v3	v3 (октябрь 2025) добавил inline-теги [whispers]/[excited], но на русском пока нестабилен. Для русского производительный продакшен — v2.
Speaker Boost = ON	Отделяет голос от любого фонового шума в референсе. Включай почти всегда — выключай только если хочешь намеренно сохранить «студийный звук» оригинала.
Точки и запятые управляют интонацией	Текст «Это сработало. Невероятно.» звучит совсем иначе чем «Это сработало, невероятно». Пунктуация важнее описания «warm tone».
Длинные предложения разбивай	Модель берёт «дыхание» на точках. Предложения >20 слов читаются скороговоркой без естественных пауз.

Готовые вариации

Documentary YouTube (140-150 WPM)

Спокойный авторитетный narrator для образовательных и tech-обзоров

[Voice: Adam, Multilingual v2, Stability 40%, Similarity 75%, Style 0%, Speaker Boost ON]

В этом видео разберём, как работает технология ChatGPT изнутри. Не на уровне «нейросеть учится на текстах» — это вы знаете. А на уровне конкретных механизмов: что такое токенизация, почему модель забывает контекст, и где её предел.

Начнём с простого. [pause] Когда вы пишете запрос, модель не видит русские слова. Она видит числа — токены.

Lifestyle / влог (160-180 WPM)

Дружелюбный энергичный темп для лайфстайл-контента и обзоров

[Voice: Bella, Multilingual v2, Stability 30%, Similarity 70%, Style 0%, Speaker Boost ON]

Привет, ребят! Сегодня покажу свой утренний routine, который реально работает — без всяких лимонных вод натощак и медитаций по 30 минут.

Первое — я ставлю будильник на 7:15, не на 6:30. Знаете почему? Потому что просыпаться рано — это не значит просыпаться лучше.

Реклама 30 секунд (190-210 WPM)

Энергичная динамика для коммерческих роликов

[Voice: Domi, Multilingual v2, Stability 25%, Similarity 80%, Style 20%, Speaker Boost ON]

Два дня. Скидка пятьдесят процентов. Только сегодня и завтра!

Мы убрали все промежуточные звенья. Прямо со склада. Без переплат за бренд, упаковку, маркетинг.

Кофеварка которая стоила двадцать тысяч — теперь десять. Промокод BLACK сработает на сайте. Дрогнул — нет.

Аудиокнига / художественное чтение (130-140 WPM)

Размеренный экспрессивный narrator для художественных текстов

[Voice: George, Multilingual v2, Stability 50%, Similarity 75%, Style 10%, Speaker Boost ON]

Глава первая. Серый дом.

Дом стоял на пригорке, серый и облезлый, с провалившейся крышей и заколоченными окнами. Никто не помнил, кто в нём жил последним. Соседи говорили — старуха. Какие-то дети уверяли, что слышали оттуда плач.

Но это всё были байки. [pause] Пока однажды в дом не въехал новый хозяин.

Voice cloning (свой голос на YouTube)

Подготовка для клонирования собственного голоса под YouTube-канал

[Подготовка для Instant Voice Cloning или Professional Voice Cloning]

1) Запиши 1 минуту своего голоса (для IVC — Starter $5/мес) или 30+ минут (для PVC — Creator $22/мес).
2) Условия записи: тихая комната, конденсаторный микрофон или хороший USB-микрофон, без эха.
3) Содержание: читай разнообразный текст — нейтральный, эмоциональный, вопросы, восклицания. Не один монотонный отрывок.
4) Загрузи в elevenlabs.io → Voice Lab → Add Voice → Instant Voice Cloning.
5) После клонирования настройки те же: Stability 35%, Similarity 75%, Style 0%, Speaker Boost ON.

Ожидаемое качество: на IVC — узнаваемый голос но без нюансов эмоции, на PVC — почти неотличимо от оригинала.

Подкаст с двумя голосами

Диалог в подкаст-формате — два разных Voice ID

[Voice 1: Adam (хост), Stability 40% / Voice 2: Rachel (гость), Stability 35%]

Генерируй каждую реплику отдельно с соответствующим Voice ID, потом склей в Audacity или CapCut. ElevenLabs не делает диалог автоматически — это всегда последовательная генерация.

Пример скрипта:
[Adam] Сегодня у меня в гостях специалист по нейросетям, Анна. Анна, привет.
[Rachel] Привет, Игорь. Спасибо что пригласил.
[Adam] Расскажи, чем ты занимаешься?

Пауза между репликами 200-300мс — добавляй в редакторе, не в самой ElevenLabs.

Этот промпт для других инструментов

Smart-AI / Arzamas (ElevenLabs API без VPN)

Российские реселлеры с прямым доступом к ElevenLabs API, рублёвая оплата за символы. Качество идентичное оригиналу.

Те же настройки и те же Voice IDs. Регистрация без VPN, оплата картами РФ.

Yandex SpeechKit

Бесплатно для небольших объёмов, без VPN. Качество русского заметно ниже ElevenLabs (6/10 vs 9.5/10). Подходит для прототипов и некритичного контента.

Только готовые голоса (alena, jane, omazh, zahar). Без эмоциональной игры. Управляет интонацией через SSML-разметку.

Salute Speech (Sber)

Бесплатно с лимитами. Качество ниже Yandex SpeechKit. Преимущество — прямая интеграция с другими сервисами Sber.

API через Salute Speech Cloud. Настройки минимальны: голос, скорость, тон.

PlayHT

Альтернатива ElevenLabs с английского рынка. Иногда лучше в эмоциональной игре, но русский слабее. $39/мес для коммерческого использования.

Тот же подход. PlayHT использует другие voice IDs — посмотри их Voice Library.

Частые вопросы

Почему голос звучит «робот» если выбрал хороший Voice ID?

Снижай Similarity Boost до 60-65%. Это контр-интуитивно — кажется что высокий Similarity = ближе к качественному голосу. На самом деле высокий Similarity = ближе к усреднённому синтетическому референсу. Также проверь что Stability не выше 50%.

Как сделать чтобы голос звучал «живее»?

Три приёма: 1) Stability понизь до 25-35% — больше вариации интонации. 2) В тексте используй пунктуацию активно — точки, многоточия, тире (паузы и интонации). 3) Длинные предложения разбивай — модель берёт «дыхание» на точках. Хорошо подготовленный текст даёт 80% качества, Voice ID — только 20%.

Можно ли клонировать чужой голос?

Технически да через Instant Voice Cloning (с 30 секунд) или Professional Voice Cloning (30+ минут). Юридически — только с письменного согласия владельца голоса. ElevenLabs запрещает в TOS клонирование без согласия и блокирует аккаунты при жалобе. Безопасно: только свой голос или голоса с открытыми лицензиями (Creative Commons, public domain).

Сколько стоит озвучка часового видео?

Часовое видео ≈ 7000-9000 слов ≈ 50-70К символов. Free tier (10К) не хватит. Starter $5/мес (30К) — 25 минут видео. Creator $22/мес (100К) — 1.5 часа в месяц + Voice Cloning. Pro $99/мес (500К) — 7 часов. Через российских реселлеров (Smart-AI) — ≈400-700 ₽ за час финального видео.

Eleven v3 с тегами [whispers]/[excited] работает на русском?

Пока нестабильно. v3 (октябрь 2025) добавил inline-теги для эмоций, но на русском они срабатывают через раз — модель часто игнорирует или неправильно интерпретирует. Для русского продакшена держись на Multilingual v2 без тегов. Эмоции в v2 управляй через пунктуацию и Stability.

Нужно ли помечать AI-озвучку на YouTube?

С марта 2025 YouTube требует пометку для синтетических голосов в новостных и документальных категориях (Studio → Detail → Altered content). Для educational, gaming, развлекательного контента — не обязательно, но рекомендуется добавить «Озвучка через ElevenLabs» в описание ролика. За нарушение в news-категории — сначала warning, потом demonetization.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки

Видео

Музыка

Голос

ИИ-чат

Попробовать бесплатно

Полезные гайды

Маскот gen-hub.ru с золотым ключом, карта России и иконки нейросетей с зелёными галочками и красными запретами — каталог 2026

🌍 Без VPNНовичок

Нейросети без VPN из России — каталог 2026 (что работает, что нет, что вместо)

Полный каталог: что доступно напрямую (DeepSeek, Qwen, GigaChat 3, Kandinsky), что заблокировано (ChatGPT, Claude, Midjourney), что через прокси-агрегаторы с рублёвой оплатой (390-690 ₽/мес). Юридический контекст и закон 2027.

⏱ 15 минЧитать →

Готов попробовать? Копируй промпт выше и вставляй в ElevenLabs.

Открыть ElevenLabs →