xAI
ГолосxAIGrokSpeech-to-TextText-to-SpeechVoice API

xAI запустила голосовые API Grok: речь в текст и текст в речь

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
xAI запустила голосовые API Grok: речь в текст и текст в речь

Маск идёт на рынок голоса

Когда xAI только анонсировала Grok Voice для мобильных приложений, многие восприняли это как очередную игрушку в экосистеме Маска. Но теперь картина резко изменилась: компания выкатила два самостоятельных API — Speech-to-Text и Text-to-Speech — и прямым текстом заявляет, что метит в корпоративный сегмент. Это уже не фича для пользователей X, это инфраструктурный продукт для разработчиков.

Что меня здесь цепляет больше всего — оба API построены на той же инфраструктуре, которая уже работает в реальных продуктах: Grok на смартфонах, голосовые системы Tesla и клиентская поддержка Starlink. То есть это не лабораторная разработка, которую наспех завернули в API. За ней стоит боевой трафик.

Что умеет Grok STT

Начнём с распознавания речи. Grok STT поддерживает 25 языков, работает в двух режимах — пакетном (batch) для уже записанных файлов и потоковом (streaming) для транскрипции в реальном времени. Ценник: $0.10 за час в batch-режиме и $0.20 за час в streaming. На фоне рынка это выглядит конкурентно — особенно учитывая набор функций.

В комплекте идут временны́е метки на уровне отдельных слов, диаризация спикеров (то самое «кто что сказал»), поддержка многоканального аудио и умная нормализация текста. Последнее — недооценённая штука: система сама конвертирует «сто шестьдесят семь тысяч девятьсот восемьдесят три доллара и пятнадцать центов» в читаемый «$167,983.15». Для финансовых и юридических транскриптов это экономит часы ручной правки.

По форматам — 12 аудиоформатов: WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV плюс три «сырых» формата (PCM, µ-law, A-law). Максимальный файл — 500 МБ на запрос. Покрывает практически любой реальный сценарий.

Цифры бенчмарков — и почему им стоит верить осторожно

XAI публикует сравнения с конкурентами, и цифры выглядят убедительно. На задаче распознавания сущностей в телефонных звонках — имена, номера счетов, даты — Grok STT показывает 5.0% ошибок против 12.0% у ElevenLabs, 13.5% у Deepgram и 21.3% у AssemblyAI. Это не просто «немного лучше» — это в 2-4 раза точнее.

Для видео и подкастов картина другая: Grok и ElevenLabs идут вровень — 2.4% ошибок, Deepgram даёт 3.0%, AssemblyAI — 3.2%. На общих аудиобенчмарках xAI фиксирует 6.9% word error rate.

Моя оговорка: это внутренние тесты xAI, а не независимый аудит. История знает много случаев, когда лабораторные показатели расходились с production-реальностью. Тем не менее, если цифры по телефонным звонкам хотя бы наполовину соответствуют действительности, это серьёзная заявка — колл-центры и CRM-интеграции будут смотреть на этот API очень внимательно.

Grok TTS: голос с характером

Теперь про синтез речи. Grok TTS стоит $4.20 за миллион символов — это вполне рыночная цена, чуть ниже ElevenLabs в их базовых тарифах. Поддерживается 20 языков, доступно пять голосов: Ara, Eve, Leo, Rex и Sal (по умолчанию — Eve).

Но главная изюминка — система speech tags. Разработчики могут буквально режиссировать речь: вставлять `[laugh]`, `[sigh]`, `[breath]` как инлайн-теги или оборачивать фрагменты в `` и ``. Это решает давнюю головную боль TTS-разработки: традиционные системы звучат как роботы именно потому, что не умеют передавать эмоциональные нюансы без сложных SSML-конструкций.

По техническим ограничениям: до 15,000 символов на REST-запрос, для длинного контента — WebSocket streaming без ограничений по длине, причём аудио начинает возвращаться ещё до завершения обработки всего текста. Для генерации подкастов или озвучки длинных статей это принципиально важно.

Кому это реально нужно

Для разработчиков в России ситуация неоднозначная. API доступны через x.ai, и здесь начинаются привычные вопросы: оплата требует иностранную карту, прямой доступ может потребовать VPN в зависимости от провайдера. Это не уникальная проблема xAI — с тем же сталкиваются пользователи OpenAI и Anthropic.

Для бизнеса интереснее всего три сценария. Первый — колл-центры и CRM: если точность на телефонном аудио действительно такова, как заявляется, это прямая замена Deepgram в существующих пайплайнах. Второй — голосовые агенты: связка STT + LLM Grok + TTS в одной экосистеме упрощает архитектуру и потенциально снижает задержки. Третий — доступность и локализация: 20-25 языков при конкурентной цене делают API интересным для продуктов с международной аудиторией.

Контекст и мои выводы

XAI входит на рынок, где уже есть сильные игроки с годами данных и доверием разработчиков. ElevenLabs стал де-факто стандартом для качественного TTS, Deepgram держит корпоративный STT-сегмент, AssemblyAI популярен среди стартапов. Но у xAI есть два козыря.

Первый — интеграция с Grok LLM. Когда у тебя в одном API-ключе живут и языковая модель, и голосовые инструменты, это снижает операционную сложность для команд, которые строят голосовых агентов. Второй — реальный production-трафик за плечами. Tesla и Starlink — это не тестовые стенды, это миллионы взаимодействий в условиях реального мира.

Мой прогноз: в течение полугода мы увидим, насколько заявленные бенчмарки выдерживают независимую проверку. Если STT-точность на телефонных звонках подтвердится — xAI получит серьёзную долю корпоративного рынка. Если нет — останется ещё одним игроком в переполненном поле. Рынок голосового ИИ сейчас достаточно большой, чтобы прокормить нескольких победителей, и xAI явно намерена стать одним из них.

Источники

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости