Stable Audio 2.0

Stable Audio 2.0

Модель Stability AI для генерации инструментальных треков длительностью до 3 минут в качестве 44.1 kHz стерео с поддержкой text-to-audio, audio-to-audio и audio inpainting.

Бесплатно (веб) / ~$0.09 за трек через API / от $9/мес (Stable Assistant)Работает в РФ
6.5/10📅 2024-04-03🏢 Stability AIProprietary

Рейтинг и бенчмарки

Общий рейтинг
6.5/10
Benchmark Score
6.5/10
Скорость
8/10
Sample Rate
44.1 kHz stereo
Макс. длительность
3 минуты
Архитектура
Diffusion Transformer (DiT)

Входные и выходные данные

Входные данные
текстаудио
Выходные данные
аудиомузыка

API и стоимость

Входные токены (Input)
Бесплатно (веб) / ~$0.09 за трек через API / от $9/мес (Stable Assistant)
цена за промпт
Выходные токены (Output)
~$0.09 / трек (9 кредитов через API)
цена за ответ
API доступен

Способы доступа

Web (stableaudio.com)API (platform.stability.ai)Stable Assistant

Сценарии использования

генерация музыки до 3 минутзвуковые эффектыaudio-to-audio трансформациясаундтреки для видеоигр и подкастов

Тарифы и подписки — Stability AI

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Популярный
Бесплатно (веб)
Бесплатно
  • Доступ через сайт stableaudio.com
  • Генерация треков до 3 минут, 44.1 kHz стерео
  • Text-to-audio и audio-to-audio в браузере
  • Ежедневный лимит на количество генераций
API (pay-as-you-go)
от $0.09 / трек
  • 9 кредитов на трек (1 кредит = $0.01)
  • 25 бесплатных кредитов при регистрации
  • Эндпоинты text-to-audio, audio-to-audio, audio inpainting
  • Без подписки — оплата только за фактические запросы
  • Интеграция в свои приложения через REST API
Stable Assistant
от $9/мес
  • Включает Stable Audio 2.0 + Stable Image Ultra + Stable Fast 3D
  • Бесплатный пробный период 3 дня
  • Чат-интерфейс на assistant.stability.ai
  • Создание музыки и изображений через текстовые промпты
Enterprise
Индивидуально
  • Обязательно при выручке свыше $1 млн/год
  • Self-hosted деплой и кастомное обучение
  • Расширенный SLA и приоритетная поддержка
  • Bulk-скидки на API-кредиты
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Генерация полноценных треков до 3 минут с осмысленной структурой — вступление, развитие, завершение
Качество 44.1 kHz стерео сразу пригодно для публикации, без обязательного апскейла
Audio-to-audio превращает голосовую напевку или семпл в полноценную композицию по текстовому промпту
API доступен по pay-as-you-go — 9 кредитов (~$0.09) за трек, без подписки
Сайт stableaudio.com открывается из России без VPN — Stability AI не блокирует доступ по геолокации
Обучена на полностью лицензированном датасете AudioSparx (~800 000 файлов) — снижает юридические риски
✗ Минусы
Появились более новые версии — Stable Audio 2.5 (декабрь 2025, ~2 секунды на трек) и 3.0 (май 2026, треки до 6 минут)
Нет генерации вокала и текстов песен — только инструментальная музыка и звуковые эффекты
Российские карты МИР не принимаются — оплата только зарубежной Visa/Mastercard
Интерфейс только на английском, промпты на русском работают значительно хуже
Лимит 3 минуты сужает применение — для длинных треков нужны 2.5/3.0 или конкуренты вроде Suno
Audible Magic блокирует загрузку защищённого копирайтом аудио — сценарий «ремикс известной песни» невозможен

Подробный обзор

Что такое Stable Audio 2.0

Stable Audio 2.0 — модель генерации музыки и звуковых эффектов от британско-американской компании Stability AI, выпущенная 3 апреля 2024 года. Это вторая итерация продукта Stable Audio: первая версия умела генерировать только короткие аудиофрагменты, а 2.0 научилась создавать полноценные музыкальные треки длительностью до 3 минут в качестве 44.1 kHz стерео с осмысленной структурой — вступлением, развитием и завершением. Одновременно появилась функция audio-to-audio, позволяющая загружать собственные аудиофайлы и трансформировать их по текстовому промпту.

Основные возможности

Модель построена на архитектуре Diffusion Transformer (DiT) — Stability AI отказалась от прежнего U-Net в пользу трансформера со сжимающим автоэнкодером, что позволило работать с длинными последовательностями без потери качества. Поддерживается три режима работы:

  • Text-to-audio — генерация трека или звукового эффекта по текстовому описанию
  • Audio-to-audio — трансформация загруженного аудио (например, насвистанной мелодии) в полноценную композицию по промпту
  • Audio inpainting — продолжение или вариация существующего фрагмента, доступно через API

Помимо музыки модель умеет генерировать отдельные звуковые эффекты — от ударов клавиш и щёлканья до амбиентных текстур. Обучение проходило на полностью лицензированном датасете AudioSparx (около 800 000 файлов), а на платформе работает технология Audible Magic ACR — она блокирует загрузку защищённых авторским правом материалов в audio-to-audio.

Цены и доступ

Воспользоваться Stable Audio 2.0 можно тремя способами. На сайте stableaudio.com работает бесплатный веб-интерфейс с генерацией без подписки, но с ограничениями на количество генераций в день. Через Stability AI API на platform.stability.ai оплата идёт по кредитной системе — 1 кредит равен $0.01, генерация трека стоит 9 кредитов (~$0.09), при регистрации даётся 25 бесплатных кредитов. Третий вариант — подписка Stable Assistant от $9/мес, которая включает Stable Audio 2.0, генератор изображений Stable Image Ultra и 3D-генератор Stable Fast 3D. Для бизнеса с выручкой свыше $1 млн/год обязательна enterprise-лицензия.

Место в линейке Stability AI

Stable Audio 2.0 остаётся доступной, но с момента её выхода Stability AI выпустила более новые версии. Stable Audio 2.5 (декабрь 2025) — корпоративная итерация с ускорением генерации до 2 секунд на GPU за счёт метода Adversarial Relativistic-Contrastive (ARC) и расширенной поддержкой audio inpainting. Stable Audio 3.0 (май 2026) — линейка из четырёх моделей (Small SFX, Small, Medium, Large) с открытыми весами для трёх младших и треками до 6 минут. Если задача — продакшен-музыка для коммерческих проектов, имеет смысл смотреть на 2.5 или 3.0; версия 2.0 актуальна для типовых задач генерации фоновой музыки и звуковых эффектов.

Доступность и особенности использования

Сайт stableaudio.com открывается из России без VPN, доступ к платформе stability.ai тоже работает. Интерфейс выполнен только на английском языке — русскоязычной локализации нет. Промпты лучше писать на английском: на русском модель работает значительно хуже. Оплата картами российских банков (МИР) недоступна — нужна зарубежная Visa/Mastercard либо счёт за пределами РФ. Условия лицензии запрещают загружать в audio-to-audio защищённый авторским правом контент — за этим следит технология Audible Magic, поэтому загрузить трек известного исполнителя ради ремикса не получится.

Часто задаваемые вопросы

Что такое Stable Audio 2.0 и для каких задач подходит?
Stable Audio 2.0 — модель генерации музыки от Stability AI, выпущенная 3 апреля 2024 года. Создаёт инструментальные треки длиной до 3 минут в качестве 44.1 kHz стерео и звуковые эффекты по текстовому промпту. Подходит для фоновой музыки в видео, рекламных роликах, играх и подкастах, а также для создания SFX. Через audio-to-audio можно превращать собственные семплы или насвистанную мелодию в полноценную композицию.
Какая максимальная длительность трека и качество звука?
До 3 минут в качестве 44.1 kHz стерео — это рабочий стандарт для публикации без необходимости апскейла. Структура трека генерируется с интро, развитием и финалом. Если нужны треки длиннее 3 минут, стоит смотреть на Stable Audio 3.0 (до 6 минут) или Suno (полноценные песни с куплетами и припевами).
Чем audio-to-audio отличается от обычной text-to-audio генерации?
Text-to-audio создаёт трек с нуля по текстовому описанию. Audio-to-audio принимает на вход загруженный аудиофайл (например, голосовую напевку, простую партию пианино или семпл) и трансформирует его в новую композицию по дополнительному текстовому промпту. Это удобно когда есть мелодическая идея, но нужно превратить её в полноценный продакшен.
Работает ли Stable Audio 2.0 в России без VPN?
Да, сайт stableaudio.com и платформа stability.ai открываются из России без VPN — Stability AI не блокирует доступ по геолокации. Интерфейс при этом только на английском, русскоязычной локализации нет.
Можно ли оплатить российской картой?
Нет, российские карты системы МИР не принимаются. Оплата через Stripe идёт только по зарубежным Visa/Mastercard. Для подписки Stable Assistant ($9/мес) или пополнения API-кредитов потребуется зарубежная карта или зарубежный платёжный счёт.
Можно ли использовать сгенерированные треки коммерчески?
Да, для частных лиц и компаний с годовой выручкой до $1 миллиона коммерческое использование разрешено в рамках Stability AI Community License. При выручке свыше $1 млн/год нужна Enterprise-лицензия — её условия согласуются с Stability AI индивидуально. Важно соблюдать запрет на загрузку защищённого копирайтом аудио в audio-to-audio.
Чем Stable Audio 2.0 отличается от 2.5 и 3.0?
Stable Audio 2.5 (декабрь 2025) — корпоративная версия с ускорением до 2 секунд за трек благодаря методу ARC и расширенными audio inpainting. Stable Audio 3.0 (май 2026) — линейка из 4 моделей (Small SFX, Small, Medium, Large) с открытыми весами для младших и треками до 6 минут. Версия 2.0 осталась как базовый рабочий инструмент: 3 минуты, 44.1 kHz, стандартные text-to-audio и audio-to-audio.
Есть ли публичный API и какие альтернативы Stable Audio?
Да, доступен через platform.stability.ai с эндпоинтами text-to-audio, audio-to-audio и audio inpainting. Стоимость — 9 кредитов (~$0.09) за трек, при регистрации даётся 25 бесплатных кредитов. Альтернативы: Suno и Udio для песен с вокалом, AIVA для оркестровой и кинематографической инструментальной музыки, Mubert для бесконечного фонового стриминга через API.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно