Stable Audio 3: музыка на 6 минут прямо на вашем MacBook

Когда Stability AI в 2022 году выпустила Stable Diffusion, она буквально взорвала рынок генерации изображений. Теперь компания пытается повторить тот же трюк в аудио — и, судя по техническим характеристикам Stable Audio 3, у неё есть все шансы.

Четыре модели на любой кошелёк и любое железо

Семейство Stable Audio 3 состоит из четырёх вариантов: два «малых» (small-music и small-sfx по 459 млн параметров диффузионного трансформера), средний (medium, 1,4 млрд параметров) и большой (large, 2,7 млрд параметров). Первые три доступны с открытыми весами на Hugging Face, большая модель — только по корпоративной лицензии или через API.

Максимальная длина генерации — принципиальный прорыв. Small-варианты выдают до 2 минут аудио, medium и large — до 6 минут 20 секунд. Для сравнения: Stable Audio 2.0 упирался в потолок около 3 минут, а прежний открытый Stable Audio Open едва тянул до 47 секунд. Рост более чем восьмикратный по открытым весам — это не итерация, это смена поколения.

Особо подчеркну: small-модель заявлена как единственная в мире способная генерировать полноценную музыкальную композицию прямо на устройстве, без интернета. Она работает на CPU MacBook Pro M4. Medium помещается на потребительскую видеокарту с 8 ГБ VRAM. Это означает, что музыкальный ИИ наконец-то выходит за пределы серверных стоек и перебирается на рабочий стол.

Архитектура: почему это работает быстро

Технически Stable Audio 3 построен на двух компонентах. Первый — автоэнкодер SAME (Semantically-Aligned Music autoEncoder), который сжимает стереозвук 44,1 кГц в компактное латентное представление. Ключевой параметр — коэффициент сжатия 4096×, что существенно выше типичных 1024–2048× у конкурентов. Именно это позволяет обрабатывать длинные треки на скромном железе: латентные последовательности просто короче.

Второй компонент — диффузионный трансформер, который работает с этими латентами и принимает три типа входных данных: текстовый промпт (через замороженный энкодер T5Gemma), длительность (через Fourier-признаки) и маску для инпейнтинга. Последнее особенно интересно: модели поддерживают редактирование аудио по маске — можно заменить фрагмент трека, не трогая остальное. Для профессионального звукового дизайна это важнее, чем кажется.

SAME-S (108 млн параметров) используется в малых моделях и оптимизирован под CPU-инференс. SAME-L (852 млн параметров) достаётся medium и large.

Лицензированные данные — козырь в судебную эпоху

Stability AI прямо заявляет: все модели обучены исключительно на лицензированных данных. Это сочетание библиотеки AudioSparx (более 800 000 аудиофайлов) и Creative Commons-записей с Freesound. В нынешней правовой обстановке — когда Suno и Udio воюют в судах с звукозаписывающими лейблами — это не просто маркетинговый месседж, а реальное конкурентное преимущество.

Здесь же кроется ещё один важный момент: Stability AI заключила партнёрства с Warner Music Group и Universal Music Group для разработки инструментов для профессиональных музыкантов. Компания нанимает Итана Каплана, бывшего директора по цифровым технологиям Universal Audio и Fender, чтобы возглавить профессиональное музыкальное направление. Это не стартап, пробующий воды, — это целенаправленное движение в сторону индустрии.

По условиям Community License создатели владеют своими выходными данными и могут свободно их распространять и монетизировать. Исключение — организации с годовым доходом свыше $1 млн: им потребуется корпоративная лицензия, которая, впрочем, включает юридическую защиту.

Что это значит на фоне конкурентов

Google, ElevenLabs, Suno, Udio — рынок аудиогенерации сейчас похож на гонку вооружений. Но у большинства конкурентов нет открытых весов с такими возможностями. Suno и Udio работают исключительно через облако, их модели закрыты. Google's MusicLM и его наследники — тоже не для локального запуска.

Stable Audio 3 занимает нишу, которую никто толком не занял: мощные открытые веса + работа на потребительском железе + лицензионная чистота. Для разработчиков это означает возможность встраивать генерацию музыки в свои продукты без абонентской платы за API и без юридических рисков.

Работает ли это в России

Модели распространяются через Hugging Face — платформа доступна в России без VPN (хотя стабильность соединения может варьироваться). Скачать веса small и medium можно бесплатно. Для запуска small достаточно MacBook с Apple Silicon или любого компьютера с приличным CPU. Medium потребует видеокарту с 8 ГБ VRAM — GeForce RTX 3070 или выше вполне подойдут.

Корпоративная лицензия для large-модели и API-доступ — другая история: оплата международными картами может быть затруднена, но сами открытые веса никаких платёжных инструментов не требуют.

Мой вывод

Stability AI делает ровно то, что сделало её знаменитой в 2022-м: берёт технологию, которая была доступна только через облачные сервисы с закрытым кодом, и выкладывает её в открытый доступ. Шесть минут музыки на MacBook без интернета — это не демо-трюк, это реальный инструмент для подкастеров, инди-разработчиков игр, видеомейкеров и музыкантов-экспериментаторов.

Посмотрим, сможет ли компания удержать этот темп. Конкуренция жёсткая, а юридические риски в музыкальной индустрии никуда не делись. Но пока — это один из самых интересных открытых релизов в аудио-ИИ за последние годы. Информация подтверждена несколькими независимыми публикациями.

Stable Audio 3: музыка на 6 минут прямо на вашем MacBook

Четыре модели на любой кошелёк и любое железо

Архитектура: почему это работает быстро

Лицензированные данные — козырь в судебную эпоху

Что это значит на фоне конкурентов

Работает ли это в России

Мой вывод

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ElevenLabs Music v2: опера переходит в метал без потери музыкальной логики

ElevenLabs Music v2: ИИ меняет жанры прямо посреди трека

Stability AI выпустила Stable Audio 3.0: треки до 6 минут на лицензионных данных