xAI запускает Grok Imagine Video 1.5: фото оживают со звуком в 720p

Фотография — это теперь только первый кадр
Когда OpenAI тихо похоронила Sora под предлогом «нехватки ресурсов», на освободившееся место уже выстраивалась очередь. xAI не стала ждать — компания Илона Маска выпустила в превью Grok Imagine Video 1.5, и это не просто апгрейд предыдущей версии. Это заявка на серьёзную долю рынка генеративного видео.
Модель вышла 30 мая 2026 года под официальным именем `grok-imagine-video-1.5-preview` (алиас: `grok-imagine-video-1.5-2026-05-30`) и уже доступна через API xAI. По сути, это image-to-video система: загружаешь статичный кадр, пишешь промпт — и получаешь видеоклип длиной до 15 секунд в разрешении 480p или 720p при стандартных 24 fps.
Что умеет 1.5 — и чего не умели предшественники
Главное нововведение, которое отличает 1.5 от первой версии — нативный синхронизированный звук. Большинство конкурентов добавляют аудио постфактум, отдельным проходом. Grok Imagine Video 1.5 генерирует фоновую музыку, звуковые эффекты и даже лип-синк диалогов в одном проходе, одновременно с видеорядом. Звук не просто прикладывается поверх — он рождается вместе с картинкой.
Под капотом работает архитектура Aurora от xAI — авторегрессивный mixture-of-experts, обученный на миллиардах примеров. Модель предсказывает токены изображения последовательно, что даёт плотный контроль над генерацией и обеспечивает визуальную консистентность между кадрами. Несколько специализированных сетей работают параллельно: одна отвечает за физику движения, другая — за темпоральную консистентность (борьба с мерцанием и артефактами), третья — за сохранение стиля оригинала.
Особо стоит выделить кинематографический контроль камеры: в промпте можно прямым текстом указать долли, пан, наезд или временной маркер — и камера реально следует этой инструкции. Плюс поддержка reference-guided generation: загружаешь референсные изображения для закрепления стиля, персонажа или композиции, и все последующие генерации держатся в рамках заданного визуального бриефа.
Для тех, кому одного клипа мало — Video Extension: модель продолжает видео с последнего кадра, позволяя цепочкой строить более длинные сцены из одной отправной точки.
Цены и доступность через API
Модель работает только через API — прямо в интерфейсе Grok пока недоступна. Ценообразование посекундное: $0.08 за секунду для 480p и $0.14 за секунду для 720p (по данным официальной документации xAI). Ряд сторонних площадок указывает немного другие цифры — $0.09/$0.15 за секунду — возможно, это с учётом собственной наценки провайдеров. Лимит запросов — 60 в минуту через регион `us-east-1`.
При максимальной длине в 15 секунд полный клип в 720p обойдётся примерно в $2.10. Для сравнения: Runway Gen-3 Alpha за аналогичный хронометраж берёт около $3–4, Google Veo 2 в рамках Vertex AI тоже не дешевле. xAI явно играет на поле ценовой конкурентоспособности.
Конкурентная расстановка в середине 2026-го
Рынок генеративного видео к середине 2026 года выглядит примерно так: Seedance от ByteDance активно продвигается в профессиональный сегмент, Google Veo 3 уже поддерживает нативное аудио и конкурирует по качеству физики движений, Kling 2.0 от Kuaishou занял нишу кинематографических эффектов. Runway сохраняет позиции в профессиональном видеопроизводстве.
Grok Imagine Video 1.5 врывается в этот ряд с козырем нативного аудио в одном проходе — это действительно редкость даже среди топовых конкурентов. Слабое место пока очевидно: отсутствие text-to-video. Официальная документация прямо указывает: «данная модель не поддерживает генерацию видео из текста». Только image-to-video. Для многих сценариев это ограничение критично.
Что это значит для разработчиков и бизнеса
Для разработчиков интеграция выглядит просто: несколько строк кода через REST API, стандартный ключ xAI. Несколько сторонних платформ — Runware, Replicate, OpenCreator, Morphic — уже подключили модель, так что попробовать можно без написания кода.
Для бизнеса сценарии очевидны: анимация продуктовых фотографий для e-commerce, talking head видео для презентаций, социальный контент из брендовых изображений. Нативный лип-синк открывает путь к автоматизированным видеообращениям без студии.
Для российских пользователей ситуация привычная: API xAI в РФ напрямую не работает, нужен VPN и зарубежная карта или криптооплата. Сторонние платформы типа Replicate могут принимать российские карты — но это нужно проверять в каждом конкретном случае.
Итог
xAI выходит на рынок видеогенерации не с сырым продуктом, а с технически зрелым решением, у которого есть реальное конкурентное преимущество в виде встроенного синхронного аудио. Статус «preview» означает, что впереди ещё доработки — и вероятно, появление text-to-video в следующих версиях. Пространство, которое освободила Sora, активно делится между сильными игроками. xAI претендует на значимый кусок.
*Информация подтверждена несколькими независимыми публикациями и технической документацией.*
Похожие новости
Meituan открыла фреймворк для создания цифровых людей
Китайский технологический гигант Meituan выложил в открытый доступ инструментарий для разработки виртуальных персонажей. Разбираемся, зачем это нужно и что получит рынок.
Google Omni: ИИ превращает любой контент в видео — тест на плюшевом олене
Google запустила Omni Flash — мультимодальную модель, которая делает видео из чего угодно. Мы проверили, насколько это реально работает.
NVIDIA SANA-WM: минутное 720p видео с одной видеокарты
NVIDIA выпустила открытую модель SANA-WM на 2,6 млрд параметров — она генерирует 60-секундное видео в 720p с точным управлением камерой и работает на одном RTX 5090.