S
ГолосStepFunStepAudioголосовой ИИRLHFпаралингвистика

StepAudio 2.5 Realtime: голосовой ИИ, который чувствует усталость в вашем голосе

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
StepAudio 2.5 Realtime: голосовой ИИ, который чувствует усталость в вашем голосе

Представьте голосового ассистента, который слышит не только слова, но и то, что за ними: усталость в интонации, раздражение в темпе речи, неуверенность в паузах. Именно такую систему шанхайская лаборатория StepFun выкатила в мае 2026 года под названием StepAudio 2.5 Realtime — и это не просто очередной TTS с красивым маркетингом.

Конец эпохи конвейерных систем

Большинство голосовых ИИ работают как сборочный цех: сначала распознавание речи, потом рассуждение текстовой модели, потом синтез голоса. Три отдельных блока, три точки задержки, три места, где что-то может пойти не так. StepAudio 2.5 Realtime ломает эту схему — аудио входит и выходит через единую сквозную архитектуру без промежуточного текстового представления.

Это принципиально важно не только для скорости. Когда система работает напрямую с акустическими признаками, она сохраняет информацию, которая теряется при транскрипции: тембр, темп, микропаузы, вздохи. Именно это открывает дорогу к тому, что разработчики называют паралингвистическим пониманием.

Модель слышит то, что вы не говорите

Паралингвистика — это всё, что сопровождает слова, но словами не является. Скорость речи, высота тона, ритмические паузы, смех, вздохи. Люди читают эти сигналы автоматически и бессознательно. Большинство голосовых ИИ — нет.

StepAudio 2.5 Realtime набрал 82.18 балла на бенчмарке паралингвистического понимания, охватывающем восприятие эмоций, скорости речи, возраста говорящего и других акустических характеристик. Система умеет, например, определить усталость по сниженному тону или раздражение по ускоренному темпу.

Для голосовых интерфейсов это меняет всё. Ассистент, который понимает, что вы устали и хотите короткий ответ, принципиально отличается от того, который просто обрабатывает текст запроса.

Три кита архитектуры

StepFun описывает три ключевых инженерных решения, стоящих за моделью.

Первое — масштабирование персонажных данных. Команда начала с более чем 10 000 качественных персонажей, написанных вручную, и применила алгоритмическое расширение до матрицы персонажных признаков миллионного масштаба. Это умный подход: вместо того чтобы вручную размечать миллионы примеров, вы берёте качественное зерно и масштабируете его алгоритмически. Результат — устойчивая работа на длиннохвостых разговорных сценариях, где большинство систем начинает плыть.

Второе — специализированный RLHF для ролевых взаимодействий. Классическая проблема персонажных ИИ называется out-of-character (OOC) — когда модель на середине разговора «выходит из роли» и начинает отвечать как обычный ассистент. StepFun применил обучение с подкреплением на основе человеческой обратной связи именно под эту задачу, а не в рамках общего выравнивания. Это хирургически точное решение конкретной боли, а не универсальный пластырь.

Третье — глубокое слияние понимания и генерации речи через reinforcement learning. Модель умеет задавать «глобальный эмоциональный регистр» всего ответа и одновременно тонко настраивать акустические детали на уровне отдельных предложений. Грубо говоря: она может ответить «в целом сочувствующим тоном, но с нотками иронии в конкретной фразе».

Цифры бенчмарков

StepFun провёл тестирование в апреле 2026 года по пяти измерениям, и модель заняла первое место по всем пяти. Субъективная оценка живыми людьми через мобильное приложение — 80.41. Общий диалог — 86.36. Автомобильный сценарий — 84.80. Spoken QA на 11 задачах аудиопонимания — 79.80. Паралингвистика — 82.18.

Сравнивать эти цифры с GPT-4o Voice или Gemini Live напрямую сложно, потому что бенчмарки разные. Но позиция «первый по всем измерениям» в собственном тестировании — это заявка, которую рынок проверит быстро. Независимые сравнения появятся в ближайшие недели, и тогда станет ясно, насколько цифры держатся за пределами домашнего полигона.

Техническая доступность

Модель подключается через WebSocket API по адресу `wss://api.stepfun.com/v1/realtime`, идентификатор модели — `step-2.5-realtime`. Поддерживаются китайский и английский языки. Документация и демо доступны на stepaudiollm.github.io.

Для российских разработчиков ситуация стандартная для китайских API: технически доступ возможен, но нужно проверять актуальное состояние платёжных методов и возможные региональные ограничения. Китайские лаборатории в последнее время активно работают над международной доступностью своих продуктов, но с банковскими картами РФ по-прежнему бывают сложности — лучше уточнять напрямую или использовать корпоративные аккаунты через посредников.

Почему это важно прямо сейчас

Голосовые интерфейсы переживают что-то похожее на то, что случилось с текстовыми моделями в 2022-2023 годах: резкий качественный скачок, после которого старые подходы выглядят устаревшими. GPT-4o показал, что end-to-end голос возможен и работает. Google с Gemini Live добавил мультимодальность. Теперь StepFun поднимает ставки в части эмоционального интеллекта и персонажной стабильности.

Для бизнеса это открывает конкретные сценарии: голосовые боты с устойчивым характером для клиентского сервиса, персонажные ИИ для игр и развлечений, ассистенты для автомобилей, которые адаптируются к состоянию водителя. Паралингвистика — это не фича для галочки, это инфраструктура для принципиально нового класса приложений.

StepFun продолжает доказывать, что китайские лаборатории не просто догоняют западных игроков — они уже в нескольких нишах задают темп. StepAudio 2.5 Realtime — убедительный аргумент в пользу этого тезиса.

Источники

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости