NVIDIA
ВидеоNVIDIASANA-WMгенерация видеоworld modelopen-source

NVIDIA SANA-WM: минутное 720p видео с одной видеокарты

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
NVIDIA SANA-WM: минутное 720p видео с одной видеокарты

Когда одной видеокарты хватает на целый мир

Есть вещи, которые в мире генеративного видео считались само собой разумеющимися: хочешь качество — плати кластером GPU, хочешь длину — жертвуй разрешением. NVIDIA решила поломать эту логику одним выпуском. SANA-WM — это 2,6-миллиардная диффузионная трансформерная модель, которая генерирует 60-секундное видео в разрешении 720p с шестью степенями свободы камеры (6-DoF), и всё это на одной видеокарте RTX 5090. Не на стойке с H100, не на облачном кластере — на потребительском железе, которое уже стоит у многих исследователей на столе.

Я слежу за развитием видеогенерации последние пару лет, и каждый раз, когда появляется что-то действительно интересное в open-source, оказывается, что на практике это требует либо 8×A100, либо компромиссов по качеству. SANA-WM — один из редких случаев, когда заявленное действительно совпадает с реальностью развёртывания.

Три режима на любой вкус

Модель поддерживает три варианта инференса, и это умный дизайнерский выбор. Двунаправленный генератор — для ситуаций, когда важнее всего качество и время не критично. Чанк-каузальный авторегрессивный генератор — для последовательного роллаута, когда нужно строить сцену постепенно. И наконец дистиллированный авторегрессивный вариант — самый интересный для практического применения: он генерирует 60-секундный клип в 720p за 34 секунды на RTX 5090 с квантизацией NVFP4.

Для контекста: большинство конкурентных open-source решений либо требуют мультиGPU-инференса, либо работают с разрешением 512p и длиной 10–15 секунд. Runway Gen-3 и Kling при всём уважении — коммерческие продукты с закрытыми весами. Здесь же NVlabs открывает всё через GitHub-репозиторий NVlabs/Sana.

Архитектура: четыре нетривиальных решения

Под капотом SANA-WM — не просто масштабированный трансформер, а несколько по-настоящему интересных архитектурных находок.

Первая — замена стандартного softmax-внимания на Gated DeltaNet (GDN) с покадровой обработкой. Проблема классического линейного внимания в видеомоделях — накопление всех прошлых кадров с одинаковым весом, что на минутных последовательностях даёт «дрейф» качества. GDN вводит decay-гейт γ, который занижает вес устаревших кадров, и delta-rule коррекцию, обновляющую только остаток между целевым значением и текущим предсказанием. Рекуррентное состояние при этом остаётся постоянного размера D×D — независимо от длины видео. Это принципиально важно: квадратичная сложность softmax-внимания на 961 латентном кадре для 60-секундного 720p-видео была бы просто неподъёмной.

Итоговый бэкбон — 20 трансформерных блоков: 15 покадровых GDN-блоков и 5 блоков с softmax-вниманием (на слоях 3, 7, 11, 15 и 19). Softmax-блоки нужны там, где рекуррентности GDN не хватает для точного долгосрочного запоминания.

Вторая находка — стабилизация обучения через алгебраическое масштабирование ключей по формуле 1/√(D·S), где D — размерность головы, S — количество пространственных токенов на кадр. Звучит как деталь, но именно она устранила NaN-дивергенции, которые возникали при стандартной L2-нормализации ключей уже на 16-м шаге обучения.

Управление камерой — двухветочная схема

Отдельная история — как SANA-WM реализует управление камерой. Здесь используется двухветочная архитектура, и это именно то, чего не хватало большинству предыдущих open-source мировых моделей.

Грубая ветвь (UCPE attention) работает на уровне латентных кадров: для каждого токена вычисляется локальный базис камеры из позы camera-to-world и параметров интринзики, затем применяется Unified Camera Positional Encoding к геометрическим каналам каждой головы внимания. Это фиксирует глобальную структуру траектории.

Тонкая ветвь (Plücker mixing) решает более хитрую проблему: каждый латентный токен сжимает восемь исходных кадров, каждый со своей позой камеры. Ветвь вычисляет попиксельные Plücker raymap (6D-представление: направление луча d и момент o×d) для всех восьми кадров, что позволяет сохранить субкадровую точность управления даже после сжатия.

В итоге получается система, которая не просто «понимает» направление движения камеры из текстового описания, а следует точной метрической траектории в 6-DoF пространстве. Это принципиально для применений в робототехнике и воплощённом ИИ.

Обучение и доступность

Тренировали модель на 64 GPU H100 — серьёзный ресурс, но в пределах того, что имеют крупные исследовательские группы. Весь код и веса доступны через репозиторий NVlabs/Sana на GitHub, arxiv-препринт опубликован (2605.15178). Для российских разработчиков: репозиторий на GitHub доступен напрямую, веса на Hugging Face — тоже, VPN не требуется.

Что это значит для индустрии

SANA-WM — это серьёзный сигнал для всей экосистемы генеративного видео. Во-первых, NVIDIA показывает, что open-source world models могут достигать коммерческого уровня качества без закрытых весов. Во-вторых, появление эффективного одногпу-инференса открывает путь к локальному развёртыванию в робототехнике, симуляции и игровых движках — там, где облачная зависимость неприемлема.

Для разработчиков это конкретная точка входа: взять готовую модель, интегрировать управление камерой через 6-DoF траектории и строить поверх неё свои системы симуляции. Для бизнеса в сфере VR/AR и игр — возможность генерировать минутные сцены на местном железе без подписок и API-лимитов.

Я бы не стал называть SANA-WM «убийцей» коммерческих решений — у Runway и Kling есть интерфейс, экосистема и команды по продукту. Но как open-source baseline для исследований и кастомных пайплайнов это, пожалуй, лучшее, что появлялось в видеогенерации за последний год.

Источники

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости