xAI запускает Grok Imagine Video 1.5: фото оживают со звуком в 720p

Фотография — это теперь только первый кадр

Когда OpenAI тихо похоронила Sora под предлогом «нехватки ресурсов», на освободившееся место уже выстраивалась очередь. xAI не стала ждать — компания Илона Маска выпустила в превью Grok Imagine Video 1.5, и это не просто апгрейд предыдущей версии. Это заявка на серьёзную долю рынка генеративного видео.

Модель вышла 30 мая 2026 года под официальным именем `grok-imagine-video-1.5-preview` (алиас: `grok-imagine-video-1.5-2026-05-30`) и уже доступна через API xAI. По сути, это image-to-video система: загружаешь статичный кадр, пишешь промпт — и получаешь видеоклип длиной до 15 секунд в разрешении 480p или 720p при стандартных 24 fps.

Что умеет 1.5 — и чего не умели предшественники

Главное нововведение, которое отличает 1.5 от первой версии — нативный синхронизированный звук. Большинство конкурентов добавляют аудио постфактум, отдельным проходом. Grok Imagine Video 1.5 генерирует фоновую музыку, звуковые эффекты и даже лип-синк диалогов в одном проходе, одновременно с видеорядом. Звук не просто прикладывается поверх — он рождается вместе с картинкой.

Под капотом работает архитектура Aurora от xAI — авторегрессивный mixture-of-experts, обученный на миллиардах примеров. Модель предсказывает токены изображения последовательно, что даёт плотный контроль над генерацией и обеспечивает визуальную консистентность между кадрами. Несколько специализированных сетей работают параллельно: одна отвечает за физику движения, другая — за темпоральную консистентность (борьба с мерцанием и артефактами), третья — за сохранение стиля оригинала.

Особо стоит выделить кинематографический контроль камеры: в промпте можно прямым текстом указать долли, пан, наезд или временной маркер — и камера реально следует этой инструкции. Плюс поддержка reference-guided generation: загружаешь референсные изображения для закрепления стиля, персонажа или композиции, и все последующие генерации держатся в рамках заданного визуального бриефа.

Для тех, кому одного клипа мало — Video Extension: модель продолжает видео с последнего кадра, позволяя цепочкой строить более длинные сцены из одной отправной точки.

Цены и доступность через API

Модель работает только через API — прямо в интерфейсе Grok пока недоступна. Ценообразование посекундное: $0.08 за секунду для 480p и $0.14 за секунду для 720p (по данным официальной документации xAI). Ряд сторонних площадок указывает немного другие цифры — $0.09/$0.15 за секунду — возможно, это с учётом собственной наценки провайдеров. Лимит запросов — 60 в минуту через регион `us-east-1`.

При максимальной длине в 15 секунд полный клип в 720p обойдётся примерно в $2.10. Для сравнения: Runway Gen-3 Alpha за аналогичный хронометраж берёт около $3–4, Google Veo 2 в рамках Vertex AI тоже не дешевле. xAI явно играет на поле ценовой конкурентоспособности.

Конкурентная расстановка в середине 2026-го

Рынок генеративного видео к середине 2026 года выглядит примерно так: Seedance от ByteDance активно продвигается в профессиональный сегмент, Google Veo 3 уже поддерживает нативное аудио и конкурирует по качеству физики движений, Kling 2.0 от Kuaishou занял нишу кинематографических эффектов. Runway сохраняет позиции в профессиональном видеопроизводстве.

Grok Imagine Video 1.5 врывается в этот ряд с козырем нативного аудио в одном проходе — это действительно редкость даже среди топовых конкурентов. Слабое место пока очевидно: отсутствие text-to-video. Официальная документация прямо указывает: «данная модель не поддерживает генерацию видео из текста». Только image-to-video. Для многих сценариев это ограничение критично.

Что это значит для разработчиков и бизнеса

Для разработчиков интеграция выглядит просто: несколько строк кода через REST API, стандартный ключ xAI. Несколько сторонних платформ — Runware, Replicate, OpenCreator, Morphic — уже подключили модель, так что попробовать можно без написания кода.

Для бизнеса сценарии очевидны: анимация продуктовых фотографий для e-commerce, talking head видео для презентаций, социальный контент из брендовых изображений. Нативный лип-синк открывает путь к автоматизированным видеообращениям без студии.

Для российских пользователей ситуация привычная: API xAI в РФ напрямую не работает, нужен VPN и зарубежная карта или криптооплата. Сторонние платформы типа Replicate могут принимать российские карты — но это нужно проверять в каждом конкретном случае.

Итог

xAI выходит на рынок видеогенерации не с сырым продуктом, а с технически зрелым решением, у которого есть реальное конкурентное преимущество в виде встроенного синхронного аудио. Статус «preview» означает, что впереди ещё доработки — и вероятно, появление text-to-video в следующих версиях. Пространство, которое освободила Sora, активно делится между сильными игроками. xAI претендует на значимый кусок.

*Информация подтверждена несколькими независимыми публикациями и технической документацией.*

xAI запускает Grok Imagine Video 1.5: фото оживают со звуком в 720p

Фотография — это теперь только первый кадр

Что умеет 1.5 — и чего не умели предшественники

Цены и доступность через API

Конкурентная расстановка в середине 2026-го

Что это значит для разработчиков и бизнеса

Итог

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Meituan открыла фреймворк для создания цифровых людей

Google Omni: ИИ превращает любой контент в видео — тест на плюшевом олене

NVIDIA SANA-WM: минутное 720p видео с одной видеокарты