Stable Audio 2.0
Модель Stability AI для генерации инструментальных треков длительностью до 3 минут в качестве 44.1 kHz стерео с поддержкой text-to-audio, audio-to-audio и audio inpainting.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Stability AI
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Доступ через сайт stableaudio.com
- Генерация треков до 3 минут, 44.1 kHz стерео
- Text-to-audio и audio-to-audio в браузере
- Ежедневный лимит на количество генераций
- 9 кредитов на трек (1 кредит = $0.01)
- 25 бесплатных кредитов при регистрации
- Эндпоинты text-to-audio, audio-to-audio, audio inpainting
- Без подписки — оплата только за фактические запросы
- Интеграция в свои приложения через REST API
- Включает Stable Audio 2.0 + Stable Image Ultra + Stable Fast 3D
- Бесплатный пробный период 3 дня
- Чат-интерфейс на assistant.stability.ai
- Создание музыки и изображений через текстовые промпты
- Обязательно при выручке свыше $1 млн/год
- Self-hosted деплой и кастомное обучение
- Расширенный SLA и приоритетная поддержка
- Bulk-скидки на API-кредиты
Плюсы и минусы
Подробный обзор
Что такое Stable Audio 2.0
Stable Audio 2.0 — модель генерации музыки и звуковых эффектов от британско-американской компании Stability AI, выпущенная 3 апреля 2024 года. Это вторая итерация продукта Stable Audio: первая версия умела генерировать только короткие аудиофрагменты, а 2.0 научилась создавать полноценные музыкальные треки длительностью до 3 минут в качестве 44.1 kHz стерео с осмысленной структурой — вступлением, развитием и завершением. Одновременно появилась функция audio-to-audio, позволяющая загружать собственные аудиофайлы и трансформировать их по текстовому промпту.
Основные возможности
Модель построена на архитектуре Diffusion Transformer (DiT) — Stability AI отказалась от прежнего U-Net в пользу трансформера со сжимающим автоэнкодером, что позволило работать с длинными последовательностями без потери качества. Поддерживается три режима работы:
- Text-to-audio — генерация трека или звукового эффекта по текстовому описанию
- Audio-to-audio — трансформация загруженного аудио (например, насвистанной мелодии) в полноценную композицию по промпту
- Audio inpainting — продолжение или вариация существующего фрагмента, доступно через API
Помимо музыки модель умеет генерировать отдельные звуковые эффекты — от ударов клавиш и щёлканья до амбиентных текстур. Обучение проходило на полностью лицензированном датасете AudioSparx (около 800 000 файлов), а на платформе работает технология Audible Magic ACR — она блокирует загрузку защищённых авторским правом материалов в audio-to-audio.
Цены и доступ
Воспользоваться Stable Audio 2.0 можно тремя способами. На сайте stableaudio.com работает бесплатный веб-интерфейс с генерацией без подписки, но с ограничениями на количество генераций в день. Через Stability AI API на platform.stability.ai оплата идёт по кредитной системе — 1 кредит равен $0.01, генерация трека стоит 9 кредитов (~$0.09), при регистрации даётся 25 бесплатных кредитов. Третий вариант — подписка Stable Assistant от $9/мес, которая включает Stable Audio 2.0, генератор изображений Stable Image Ultra и 3D-генератор Stable Fast 3D. Для бизнеса с выручкой свыше $1 млн/год обязательна enterprise-лицензия.
Место в линейке Stability AI
Stable Audio 2.0 остаётся доступной, но с момента её выхода Stability AI выпустила более новые версии. Stable Audio 2.5 (декабрь 2025) — корпоративная итерация с ускорением генерации до 2 секунд на GPU за счёт метода Adversarial Relativistic-Contrastive (ARC) и расширенной поддержкой audio inpainting. Stable Audio 3.0 (май 2026) — линейка из четырёх моделей (Small SFX, Small, Medium, Large) с открытыми весами для трёх младших и треками до 6 минут. Если задача — продакшен-музыка для коммерческих проектов, имеет смысл смотреть на 2.5 или 3.0; версия 2.0 актуальна для типовых задач генерации фоновой музыки и звуковых эффектов.
Доступность и особенности использования
Сайт stableaudio.com открывается из России без VPN, доступ к платформе stability.ai тоже работает. Интерфейс выполнен только на английском языке — русскоязычной локализации нет. Промпты лучше писать на английском: на русском модель работает значительно хуже. Оплата картами российских банков (МИР) недоступна — нужна зарубежная Visa/Mastercard либо счёт за пределами РФ. Условия лицензии запрещают загружать в audio-to-audio защищённый авторским правом контент — за этим следит технология Audible Magic, поэтому загрузить трек известного исполнителя ради ремикса не получится.