ElevenLabs
ElevenLabsОзвучка видеоПростойОбновлено 5 мая 2026 г.

Закадр для YouTube через ElevenLabs: где скрыты настройки которые делают разницу

Главная путаница: текстовое поле — это что произнесут, не описание голоса. Voice задаётся выбором Voice ID + 4 ползунками в UI. Этот промпт — заготовка с правильно расставленной пунктуацией (точка = пауза 600мс, запятая = 200мс) и конкретные настройки которые проверены на русском YouTube-контенте: Stability 35%, Similarity 75%, Multilingual v2 (не v3 — на русском нестабильна).

Пример результата, сгенерированный по этому промпту через ElevenLabs · кликни для увеличения

ElevenLabs устроен иначе чем картинки и видео

В генераторах картинок «промпт» — это длинный текстовый запрос, который превращается в изображение. У ElevenLabs всё работает наоборот: текст это то что произнесут, а голос задаётся через выбор Voice ID + 4 ползунка в UI. Описывать «warm confident baritone» в тексте бесполезно — модель просто прочитает эту фразу выбранным голосом.

Это главная путаница новичков. По обсуждениям на r/elevenlabs и Discord ElevenLabs — большинство «голос звучит плохо» решается не выбором другого голоса, а правильной настройкой Stability и пунктуацией в тексте.

Что реально влияет на звучание

Из официальных рекомендаций ElevenLabs Engineering Blog и тестов от Two Minute Papers на русском контенте:

ПараметрЧто делаетОптимум для YouTube
Stability0% = максимум вариации интонации, 100% = монотонность30-50% для живых видео, 60-70% для нейтрального диктора
Similarity BoostНасколько близко к референсу. Высокое = «робот»75% — компромисс
Style ExaggerationУсиление эмоций. На русском часто ломает акцент0% для русского, 30% для драматичного английского
Speaker BoostОтделение голоса от шума, чище звукON — почти всегда
ModelMultilingual v2 vs v3v2 для русского, v3 пока только английский нативно

На r/elevenlabs популярный совет: «Если голос звучит роботично — снижай Similarity до 60-65%, не повышай Stability». Stability как раз отвечает за живость, не за «качество».

Почему точки и запятые важнее описания «warm tone»

В ElevenLabs нет понимания английского/русского описания голоса в тексте — модель просто читает текст. Но пунктуация управляет интонацией напрямую:

  • Точка — пауза ~600мс, понижение интонации
  • Запятая — пауза ~200мс, лёгкая ремарка
  • Точка с запятой — пауза ~400мс, продолжение мысли
  • Тире — выделяет вставную часть, лёгкая интонация
  • Многоточие… — пауза с неуверенностью
  • Восклицание! — повышение интонации
  • Вопрос? — поднятие в конце

Текст «Это сработало. Невероятно.» звучит совсем не как «Это сработало, невероятно». Точка между ними даёт паузу драмы, запятая — гладкое продолжение. Это управляется не Voice ID, а пунктуацией.

Совет от ElevenLabs Discord (популярный пост 2025): «Готовь текст специально под TTS. Перепиши длинные предложения. Везде где хочешь паузу — ставь точку. Везде где хочешь акцент — ставь *курсив*. Это даёт 80% качества, остальное — Voice ID и Stability».

Eleven v3 и эмоциональные теги (октябрь 2025)

ElevenLabs v3 (выпущен октябрь 2025) добавил inline-теги прямо в текст:

  • [whispers] — шёпот: «[whispers] Не говори никому, но...»
  • [excited] — возбуждённо
  • [sad] — грустно
  • [happy] — счастливо
  • [angry] — злобно
  • [laughs] — смех (модель сама вставит звук смеха)
  • [sighs] — вздох
  • [pause] — длинная пауза (длиннее точки)

Но есть нюанс — на русском v3 пока нестабильна, теги срабатывают через раз. По обсуждениям на r/elevenlabs — для русского держись на v2, теги для английских проектов.

Какие русские голоса работают

По тестам на YouTube-каналах (anekdot.ru voiceovers, AI Voice Lab, Eleven Russian Voice Tests):

Мужские голоса (Multilingual v2):
- Adam — тёплый baritone, ~35 лет. Для документалок и tech-обзоров. Самый популярный для русского YouTube
- Antoni — универсальный, более молодой. Для lifestyle и повседневных тем
- George — глубокий, авторитетный. Для серьёзных тем и истории
- Brian — серьёзный, средне-низкий. Для бизнеса и финансов

Женские голоса:
- Rachel — взрослый профессиональный (35-40 лет). Для бизнеса, образовательного контента
- Bella — молодая, дружественная (25-30). Для лайфстайла, бьюти, влогов
- Sarah — зрелая уверенная. Для деловых обзоров
- Domi — энергичная, с лёгкой игрой. Для рекламы

Клонирование собственного голоса (Instant Voice Cloning) — доступно с Starter $5/мес. Профессиональное клонирование (PVC, нужно 30+ минут записи) — с Creator $22/мес. На русском PVC даёт почти неотличимое качество.

Темп речи в WPM (words per minute)

Это скрытая настройка через текст и Stability:

  • 130-140 WPM — медленно, для аудиокниг и медитативного контента
  • 140-150 WPM — оптимум для documentary YouTube. Слушатель успевает понимать
  • 160-180 WPM — энергичный, для лайфстайла и tech-обзоров
  • 190-210 WPM — реклама, тизеры. Только короткие ролики
  • >220 WPM — речь становится неразборчивой

ElevenLabs не имеет прямой настройки темпа. Контроль через: 1) выбор Voice ID (некоторые голоса быстрее по умолчанию) 2) Stability — высокая = ровный темп, низкая = вариативный 3) Структура текста — короткие предложения = быстрый темп ощущения.

Сравнение с альтернативами для русского

СервисКачество русскогоЦена за часДоступ из РФ
ElevenLabs Multilingual v29.5/10≈$5-10 / час видеоVPN
Yandex SpeechKit6/10≈300-500 ₽/часПрямой
Salute Speech (Sber)5.5/10бесплатно с лимитамиПрямой
Tinkoff Voicekit6.5/10бесплатноПрямой
Smart-AI9/10 (ElevenLabs API)российский тарифПрямой
PlayHT8/10$39/месVPN
Resemble AI7.5/10$19/месVPN

Для профессионального YouTube — ElevenLabs остаётся лидером по русскому. На genova-ai.ru голосовых моделей нет — нужен либо VPN на elevenlabs.io, либо российские реселлеры (Smart-AI, Arzamas).

Куда вставлять промпт в ElevenLabs UI

Структура интерфейса elevenlabs.io/app/speech-synthesis:

Поле UIЧто вставить
Большое поле текста (центр)САМ ТЕКСТ который произнесут (не описание голоса!)
Voice (выпадающий список вверху)Voice ID — выбрать из библиотеки или клонированный
Model (под Voice)Eleven Multilingual v2 для русского
Stability slider30-50%
Similarity Boost slider75%
Style Exaggeration slider0% для русского
Speaker Boost toggleON

Кнопка Generate → через 5-15 секунд получаешь MP3. Если хочешь повторить с другой эмоцией — изменяй Stability и кликай Generate снова (платится за каждую генерацию).

Сколько стоит озвучка часового видео

Часовое видео ≈ 7000-9000 слов ≈ 50-70К символов:

  • Free tier (10К симв/мес) — не хватит даже на 10-минутный ролик
  • Starter $5/мес (30К симв) — хватит на ~25 минут видео
  • Creator $22/мес (100К симв) — 1.5 часа в месяц + Voice Cloning
  • Pro $99/мес (500К симв) — ~7 часов в месяц + Professional Voice Cloning

Для канала с регулярным контентом 2-3 видео в неделю по 10 минут — Creator $22/мес оптимум. Если делаешь длинные документалки — Pro.

Через Smart-AI или другие российские реселлеры — рублёвая оплата, обычно ≈400-700 ₽ за час финального видео. Для разовых проектов выгоднее подписки.

YouTube AI Disclosure: что обязательно с 2025

С марта 2025 YouTube ввёл обязательную пометку для синтетического контента:

  • Обязательно: AI-озвучка реальных персон, AI-имитация известных голосов, deepfake-видео
  • Рекомендуется: AI-озвучка вымышленных персонажей, синтетический narration в news-контенте
  • Не нужно: AI-озвучка для educational, gaming, развлекательного контента где это очевидно

Пометка ставится в Studio → Detail → Altered content. Без неё за нарушение в news-категории — сначала warning, потом demonetization. Для educational и lifestyle — необязательно, но рекомендуется в описании ролика добавить «Озвучка через ElevenLabs».

Типичные провалы озвучки

Что слышноЧто чинит
Голос звучит «робот»Снизить Similarity до 60-65%, НЕ повышать Stability
Слишком монотонноStability 30-40%, добавить пунктуации (точки, тире)
Скачки громкостиSpeaker Boost ON, разбить длинные предложения
Странный акцент на русскомStyle Exaggeration на 0%, Model = Multilingual v2 (не v3)
Глотает паузыМежду предложениями ставь точки, не запятые. [pause] для длинных пауз
Не успевает за текстомДлинные сложные слова разбей с дефисом или пробелом
📋 Промпт
## Текст для озвучки

Вставь сюда свой текст для закадра. Например:

«В этом видео разберём три способа настроить ElevenLabs так, чтобы голос звучал живо. [pause] Первый способ — самый недооценённый. Это не выбор голоса, как многие думают, а правильная пунктуация в тексте.»

## Конфигурация (выставь в UI ElevenLabs ДО генерации)

**Voice ID:** Adam (тёплый baritone — для документалок) ИЛИ Antoni (универсальный) ИЛИ George (глубокий)

**Model:** Eleven Multilingual v2 для русского (НЕ v3 — на русском пока нестабильна)

**Settings:**
- Stability: 35% (живая интонация — выше 60% получишь монотонность)
- Similarity Boost: 75% (близко к референсу, но не «робот»)
- Style Exaggeration: 0% (для русского — выкл, иначе акцент уезжает)
- Speaker Boost: ON (чище отделение голоса)

## Текстовые трюки которые работают

1) **Точки и запятые управляют паузами**. Точка = ~600мс пауза, запятая = ~200мс. Если хочешь длиннее — поставь две точки или [pause]
2) **Курсив *слово*** — лёгкая эмфаза
3) **КАПС** — модель прочтёт как акцент, не как крик
4) **Тире — выделяет** вставную часть
5) Многоточие… создаёт неуверенность
6) Длинные предложения (>20 слов) разбивай — модель берёт «дыхание» на точках

## Эмоциональные теги (только Eleven v3 на английском)

Для русского пока не работают, но если переключишься на английский — `[whispers]`, `[excited]`, `[sad]`, `[laughs]`, `[sighs]` дают конкретную интонацию.

Где использовать этот промпт

Инструмент:ElevenLabs
Цена:С VPN на elevenlabs.io: Free 10К симв/мес, Starter $5/мес 30К + Instant Voice Cloning, Creator $22/мес 100К + Professional Voice Cloning, Pro $99/мес 500К. На genova-ai.ru голосовых моделей нет.
Для РФ:Нужен VPNElevenLabs из России — VPN или российский реселлер (Smart-AI, Arzamas — рублёвая оплата за токены). Голосовых моделей на genova-ai.ru пока нет. Альтернативы без VPN с худшим качеством русского: Yandex SpeechKit, Salute Speech (Sber), Tinkoff Voicekit.

Как использовать — пошагово

  1. 1
    Открой ElevenLabs
    С VPN — elevenlabs.io/app/speech-synthesis. Без VPN из России — через российских реселлеров (Smart-AI, Arzamas). На genova-ai.ru голосовых моделей нет.
  2. 2
    Выбери Voice + Model
    Voice: Adam (тёплый baritone) для документалок, Antoni для лайфстайла, George для серьёзных тем. Model: Eleven Multilingual v2 (не v3 — на русском пока нестабильна).
  3. 3
    Выстави настройки
    Stability 30-50% (живая интонация), Similarity Boost 75%, Style Exaggeration 0% для русского, Speaker Boost ON. Эти 4 настройки делают 80% качества — Voice ID только остальные 20%.
  4. 4
    Готовь текст под TTS
    Точки = паузы 600мс, запятые = 200мс. Длинные предложения разбивай. Эмфаза через *курсив*. Длинные паузы — [pause]. Эмоциональные теги [whispers]/[excited] работают только в v3 и пока только на английском.

Разбор промпта по параметрам

ПараметрЧто делает
Stability 35% (не 60-70%)Главная ошибка новичков — крутить Stability на максимум для «качества». Stability отвечает за вариативность интонации, не за качество. Высокая = монотонный диктор, низкая = живая речь.
Similarity Boost 75%Если голос «робот» — снижай этот ползунок до 60-65%, не повышай Stability. Высокий Similarity делает модель ближе к синтетическому референсу, что даёт «прямую линию» голоса.
Style Exaggeration 0% для русскогоНа русском Style Exaggeration ломает акцент — добавляет английскую мелодику. Включай только для драматичного английского контента.
Model = Multilingual v2, не v3v3 (октябрь 2025) добавил inline-теги [whispers]/[excited], но на русском пока нестабилен. Для русского производительный продакшен — v2.
Speaker Boost = ONОтделяет голос от любого фонового шума в референсе. Включай почти всегда — выключай только если хочешь намеренно сохранить «студийный звук» оригинала.
Точки и запятые управляют интонациейТекст «Это сработало. Невероятно.» звучит совсем иначе чем «Это сработало, невероятно». Пунктуация важнее описания «warm tone».
Длинные предложения разбивайМодель берёт «дыхание» на точках. Предложения >20 слов читаются скороговоркой без естественных пауз.

Готовые вариации

Documentary YouTube (140-150 WPM)
Спокойный авторитетный narrator для образовательных и tech-обзоров
[Voice: Adam, Multilingual v2, Stability 40%, Similarity 75%, Style 0%, Speaker Boost ON]

В этом видео разберём, как работает технология ChatGPT изнутри. Не на уровне «нейросеть учится на текстах» — это вы знаете. А на уровне конкретных механизмов: что такое токенизация, почему модель забывает контекст, и где её предел.

Начнём с простого. [pause] Когда вы пишете запрос, модель не видит русские слова. Она видит числа — токены.
Lifestyle / влог (160-180 WPM)
Дружелюбный энергичный темп для лайфстайл-контента и обзоров
[Voice: Bella, Multilingual v2, Stability 30%, Similarity 70%, Style 0%, Speaker Boost ON]

Привет, ребят! Сегодня покажу свой утренний routine, который реально работает — без всяких лимонных вод натощак и медитаций по 30 минут.

Первое — я ставлю будильник на 7:15, не на 6:30. Знаете почему? Потому что просыпаться рано — это не значит просыпаться лучше.
Реклама 30 секунд (190-210 WPM)
Энергичная динамика для коммерческих роликов
[Voice: Domi, Multilingual v2, Stability 25%, Similarity 80%, Style 20%, Speaker Boost ON]

Два дня. Скидка пятьдесят процентов. Только сегодня и завтра!

Мы убрали все промежуточные звенья. Прямо со склада. Без переплат за бренд, упаковку, маркетинг.

Кофеварка которая стоила двадцать тысяч — теперь десять. Промокод BLACK сработает на сайте. Дрогнул — нет.
Аудиокнига / художественное чтение (130-140 WPM)
Размеренный экспрессивный narrator для художественных текстов
[Voice: George, Multilingual v2, Stability 50%, Similarity 75%, Style 10%, Speaker Boost ON]

Глава первая. Серый дом.

Дом стоял на пригорке, серый и облезлый, с провалившейся крышей и заколоченными окнами. Никто не помнил, кто в нём жил последним. Соседи говорили — старуха. Какие-то дети уверяли, что слышали оттуда плач.

Но это всё были байки. [pause] Пока однажды в дом не въехал новый хозяин.
Voice cloning (свой голос на YouTube)
Подготовка для клонирования собственного голоса под YouTube-канал
[Подготовка для Instant Voice Cloning или Professional Voice Cloning]

1) Запиши 1 минуту своего голоса (для IVC — Starter $5/мес) или 30+ минут (для PVC — Creator $22/мес).
2) Условия записи: тихая комната, конденсаторный микрофон или хороший USB-микрофон, без эха.
3) Содержание: читай разнообразный текст — нейтральный, эмоциональный, вопросы, восклицания. Не один монотонный отрывок.
4) Загрузи в elevenlabs.io → Voice Lab → Add Voice → Instant Voice Cloning.
5) После клонирования настройки те же: Stability 35%, Similarity 75%, Style 0%, Speaker Boost ON.

Ожидаемое качество: на IVC — узнаваемый голос но без нюансов эмоции, на PVC — почти неотличимо от оригинала.
Подкаст с двумя голосами
Диалог в подкаст-формате — два разных Voice ID
[Voice 1: Adam (хост), Stability 40% / Voice 2: Rachel (гость), Stability 35%]

Генерируй каждую реплику отдельно с соответствующим Voice ID, потом склей в Audacity или CapCut. ElevenLabs не делает диалог автоматически — это всегда последовательная генерация.

Пример скрипта:
[Adam] Сегодня у меня в гостях специалист по нейросетям, Анна. Анна, привет.
[Rachel] Привет, Игорь. Спасибо что пригласил.
[Adam] Расскажи, чем ты занимаешься?

Пауза между репликами 200-300мс — добавляй в редакторе, не в самой ElevenLabs.

Этот промпт для других инструментов

S
Smart-AI / Arzamas (ElevenLabs API без VPN)

Российские реселлеры с прямым доступом к ElevenLabs API, рублёвая оплата за символы. Качество идентичное оригиналу.

Те же настройки и те же Voice IDs. Регистрация без VPN, оплата картами РФ.
Y
Yandex SpeechKit

Бесплатно для небольших объёмов, без VPN. Качество русского заметно ниже ElevenLabs (6/10 vs 9.5/10). Подходит для прототипов и некритичного контента.

Только готовые голоса (alena, jane, omazh, zahar). Без эмоциональной игры. Управляет интонацией через SSML-разметку.
S
Salute Speech (Sber)

Бесплатно с лимитами. Качество ниже Yandex SpeechKit. Преимущество — прямая интеграция с другими сервисами Sber.

API через Salute Speech Cloud. Настройки минимальны: голос, скорость, тон.
P
PlayHT

Альтернатива ElevenLabs с английского рынка. Иногда лучше в эмоциональной игре, но русский слабее. $39/мес для коммерческого использования.

Тот же подход. PlayHT использует другие voice IDs — посмотри их Voice Library.

Частые вопросы

Почему голос звучит «робот» если выбрал хороший Voice ID?

Снижай Similarity Boost до 60-65%. Это контр-интуитивно — кажется что высокий Similarity = ближе к качественному голосу. На самом деле высокий Similarity = ближе к усреднённому синтетическому референсу. Также проверь что Stability не выше 50%.

Как сделать чтобы голос звучал «живее»?

Три приёма: 1) Stability понизь до 25-35% — больше вариации интонации. 2) В тексте используй пунктуацию активно — точки, многоточия, тире (паузы и интонации). 3) Длинные предложения разбивай — модель берёт «дыхание» на точках. Хорошо подготовленный текст даёт 80% качества, Voice ID — только 20%.

Можно ли клонировать чужой голос?

Технически да через Instant Voice Cloning (с 30 секунд) или Professional Voice Cloning (30+ минут). Юридически — только с письменного согласия владельца голоса. ElevenLabs запрещает в TOS клонирование без согласия и блокирует аккаунты при жалобе. Безопасно: только свой голос или голоса с открытыми лицензиями (Creative Commons, public domain).

Сколько стоит озвучка часового видео?

Часовое видео ≈ 7000-9000 слов ≈ 50-70К символов. Free tier (10К) не хватит. Starter $5/мес (30К) — 25 минут видео. Creator $22/мес (100К) — 1.5 часа в месяц + Voice Cloning. Pro $99/мес (500К) — 7 часов. Через российских реселлеров (Smart-AI) — ≈400-700 ₽ за час финального видео.

Eleven v3 с тегами [whispers]/[excited] работает на русском?

Пока нестабильно. v3 (октябрь 2025) добавил inline-теги для эмоций, но на русском они срабатывают через раз — модель часто игнорирует или неправильно интерпретирует. Для русского продакшена держись на Multilingual v2 без тегов. Эмоции в v2 управляй через пунктуацию и Stability.

Нужно ли помечать AI-озвучку на YouTube?

С марта 2025 YouTube требует пометку для синтетических голосов в новостных и документальных категориях (Studio → Detail → Altered content). Для educational, gaming, развлекательного контента — не обязательно, но рекомендуется добавить «Озвучка через ElevenLabs» в описание ролика. За нарушение в news-категории — сначала warning, потом demonetization.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Готов попробовать? Копируй промпт выше и вставляй в ElevenLabs.

Открыть ElevenLabs