ElevenLabs устроен иначе чем картинки и видео
В генераторах картинок «промпт» — это длинный текстовый запрос, который превращается в изображение. У ElevenLabs всё работает наоборот: текст это то что произнесут, а голос задаётся через выбор Voice ID + 4 ползунка в UI. Описывать «warm confident baritone» в тексте бесполезно — модель просто прочитает эту фразу выбранным голосом.
Это главная путаница новичков. По обсуждениям на r/elevenlabs и Discord ElevenLabs — большинство «голос звучит плохо» решается не выбором другого голоса, а правильной настройкой Stability и пунктуацией в тексте.
Что реально влияет на звучание
Из официальных рекомендаций ElevenLabs Engineering Blog и тестов от Two Minute Papers на русском контенте:
| Параметр | Что делает | Оптимум для YouTube |
|---|---|---|
| Stability | 0% = максимум вариации интонации, 100% = монотонность | 30-50% для живых видео, 60-70% для нейтрального диктора |
| Similarity Boost | Насколько близко к референсу. Высокое = «робот» | 75% — компромисс |
| Style Exaggeration | Усиление эмоций. На русском часто ломает акцент | 0% для русского, 30% для драматичного английского |
| Speaker Boost | Отделение голоса от шума, чище звук | ON — почти всегда |
| Model | Multilingual v2 vs v3 | v2 для русского, v3 пока только английский нативно |
На r/elevenlabs популярный совет: «Если голос звучит роботично — снижай Similarity до 60-65%, не повышай Stability». Stability как раз отвечает за живость, не за «качество».
Почему точки и запятые важнее описания «warm tone»
В ElevenLabs нет понимания английского/русского описания голоса в тексте — модель просто читает текст. Но пунктуация управляет интонацией напрямую:
- Точка — пауза ~600мс, понижение интонации
- Запятая — пауза ~200мс, лёгкая ремарка
- Точка с запятой — пауза ~400мс, продолжение мысли
- Тире — выделяет вставную часть, лёгкая интонация
- Многоточие… — пауза с неуверенностью
- Восклицание! — повышение интонации
- Вопрос? — поднятие в конце
Текст «Это сработало. Невероятно.» звучит совсем не как «Это сработало, невероятно». Точка между ними даёт паузу драмы, запятая — гладкое продолжение. Это управляется не Voice ID, а пунктуацией.
Совет от ElevenLabs Discord (популярный пост 2025): «Готовь текст специально под TTS. Перепиши длинные предложения. Везде где хочешь паузу — ставь точку. Везде где хочешь акцент — ставь *курсив*. Это даёт 80% качества, остальное — Voice ID и Stability».
Eleven v3 и эмоциональные теги (октябрь 2025)
ElevenLabs v3 (выпущен октябрь 2025) добавил inline-теги прямо в текст:
[whispers]— шёпот: «[whispers] Не говори никому, но...»[excited]— возбуждённо[sad]— грустно[happy]— счастливо[angry]— злобно[laughs]— смех (модель сама вставит звук смеха)[sighs]— вздох[pause]— длинная пауза (длиннее точки)
Но есть нюанс — на русском v3 пока нестабильна, теги срабатывают через раз. По обсуждениям на r/elevenlabs — для русского держись на v2, теги для английских проектов.
Какие русские голоса работают
По тестам на YouTube-каналах (anekdot.ru voiceovers, AI Voice Lab, Eleven Russian Voice Tests):
Мужские голоса (Multilingual v2):
- Adam — тёплый baritone, ~35 лет. Для документалок и tech-обзоров. Самый популярный для русского YouTube
- Antoni — универсальный, более молодой. Для lifestyle и повседневных тем
- George — глубокий, авторитетный. Для серьёзных тем и истории
- Brian — серьёзный, средне-низкий. Для бизнеса и финансов
Женские голоса:
- Rachel — взрослый профессиональный (35-40 лет). Для бизнеса, образовательного контента
- Bella — молодая, дружественная (25-30). Для лайфстайла, бьюти, влогов
- Sarah — зрелая уверенная. Для деловых обзоров
- Domi — энергичная, с лёгкой игрой. Для рекламы
Клонирование собственного голоса (Instant Voice Cloning) — доступно с Starter $5/мес. Профессиональное клонирование (PVC, нужно 30+ минут записи) — с Creator $22/мес. На русском PVC даёт почти неотличимое качество.
Темп речи в WPM (words per minute)
Это скрытая настройка через текст и Stability:
- 130-140 WPM — медленно, для аудиокниг и медитативного контента
- 140-150 WPM — оптимум для documentary YouTube. Слушатель успевает понимать
- 160-180 WPM — энергичный, для лайфстайла и tech-обзоров
- 190-210 WPM — реклама, тизеры. Только короткие ролики
- >220 WPM — речь становится неразборчивой
ElevenLabs не имеет прямой настройки темпа. Контроль через: 1) выбор Voice ID (некоторые голоса быстрее по умолчанию) 2) Stability — высокая = ровный темп, низкая = вариативный 3) Структура текста — короткие предложения = быстрый темп ощущения.
Сравнение с альтернативами для русского
| Сервис | Качество русского | Цена за час | Доступ из РФ |
|---|---|---|---|
| ElevenLabs Multilingual v2 | 9.5/10 | ≈$5-10 / час видео | VPN |
| Yandex SpeechKit | 6/10 | ≈300-500 ₽/час | Прямой |
| Salute Speech (Sber) | 5.5/10 | бесплатно с лимитами | Прямой |
| Tinkoff Voicekit | 6.5/10 | бесплатно | Прямой |
| Smart-AI | 9/10 (ElevenLabs API) | российский тариф | Прямой |
| PlayHT | 8/10 | $39/мес | VPN |
| Resemble AI | 7.5/10 | $19/мес | VPN |
Для профессионального YouTube — ElevenLabs остаётся лидером по русскому. На genova-ai.ru голосовых моделей нет — нужен либо VPN на elevenlabs.io, либо российские реселлеры (Smart-AI, Arzamas).
Куда вставлять промпт в ElevenLabs UI
Структура интерфейса elevenlabs.io/app/speech-synthesis:
| Поле UI | Что вставить |
|---|---|
| Большое поле текста (центр) | САМ ТЕКСТ который произнесут (не описание голоса!) |
| Voice (выпадающий список вверху) | Voice ID — выбрать из библиотеки или клонированный |
| Model (под Voice) | Eleven Multilingual v2 для русского |
| Stability slider | 30-50% |
| Similarity Boost slider | 75% |
| Style Exaggeration slider | 0% для русского |
| Speaker Boost toggle | ON |
Кнопка Generate → через 5-15 секунд получаешь MP3. Если хочешь повторить с другой эмоцией — изменяй Stability и кликай Generate снова (платится за каждую генерацию).
Сколько стоит озвучка часового видео
Часовое видео ≈ 7000-9000 слов ≈ 50-70К символов:
- Free tier (10К симв/мес) — не хватит даже на 10-минутный ролик
- Starter $5/мес (30К симв) — хватит на ~25 минут видео
- Creator $22/мес (100К симв) — 1.5 часа в месяц + Voice Cloning
- Pro $99/мес (500К симв) — ~7 часов в месяц + Professional Voice Cloning
Для канала с регулярным контентом 2-3 видео в неделю по 10 минут — Creator $22/мес оптимум. Если делаешь длинные документалки — Pro.
Через Smart-AI или другие российские реселлеры — рублёвая оплата, обычно ≈400-700 ₽ за час финального видео. Для разовых проектов выгоднее подписки.
YouTube AI Disclosure: что обязательно с 2025
С марта 2025 YouTube ввёл обязательную пометку для синтетического контента:
- Обязательно: AI-озвучка реальных персон, AI-имитация известных голосов, deepfake-видео
- Рекомендуется: AI-озвучка вымышленных персонажей, синтетический narration в news-контенте
- Не нужно: AI-озвучка для educational, gaming, развлекательного контента где это очевидно
Пометка ставится в Studio → Detail → Altered content. Без неё за нарушение в news-категории — сначала warning, потом demonetization. Для educational и lifestyle — необязательно, но рекомендуется в описании ролика добавить «Озвучка через ElevenLabs».
Типичные провалы озвучки
| Что слышно | Что чинит |
|---|---|
| Голос звучит «робот» | Снизить Similarity до 60-65%, НЕ повышать Stability |
| Слишком монотонно | Stability 30-40%, добавить пунктуации (точки, тире) |
| Скачки громкости | Speaker Boost ON, разбить длинные предложения |
| Странный акцент на русском | Style Exaggeration на 0%, Model = Multilingual v2 (не v3) |
| Глотает паузы | Между предложениями ставь точки, не запятые. [pause] для длинных пауз |
| Не успевает за текстом | Длинные сложные слова разбей с дефисом или пробелом |
