NVIDIA Cosmos 3: открытая омни-модель для физического ИИ и роботов

Когда мир устал от языковых моделей

Пока половина индустрии продолжает наращивать параметры очередных LLM, NVIDIA тихо делает ставку на то, что многие называют следующим фронтиром ИИ — физический мир. На конференции GTC Taipei в рамках Computex компания представила Cosmos 3, и это не просто очередное обновление с приставкой «улучшенный». Это принципиально другой класс моделей, которые должны научить машины понимать физическую реальность — со всеми её законами, движением, пространством и причинно-следственными связями.

Я слежу за направлением world models уже несколько лет, и честно скажу: большинство попыток создать «модель мира» заканчивались красивыми демо и невпечатляющими результатами на практике. Cosmos 3 выглядит иначе — хотя бы потому, что NVIDIA не пытается продать нам готовое решение, а открывает фундамент для разработчиков.

Что внутри: архитектура, которая меняет правила

Главная техническая изюминка Cosmos 3 — новая архитектура под названием «mixture-of-transformers». Грубо говоря, это гибрид двух типов трансформеров: один заточен под рассуждение и понимание, второй — под генерацию. Они работают вместе, и это позволяет модели сначала «подумать» о том, как объекты взаимодействуют в пространстве и времени, а потом уже генерировать видео или траектории движения.

Сравните это с тем, как работают обычные видеогенераторы вроде Sora или Runway — они впечатляют визуально, но у них нет внутренней физической модели мира. Они угадывают следующий кадр статистически. Cosmos 3 пытается делать что-то принципиально другое: понимать, почему мяч отскочит под определённым углом, прежде чем нарисовать этот отскок.

Отдельно впечатляет масштаб обучающих данных: 20 триллионов токенов, 1 миллиард изображений и 400 миллионов видео — как реальных, так и синтетических. Для контекста: это один из крупнейших мультимодальных датасетов для физического ИИ, который когда-либо использовался публично. Такой объём данных о физическом мире — это не просто количество, это качественный скачок в понимании пространственно-временных зависимостей.

Омни — значит всё сразу

Космос 3 называют «омни-моделью» не для красного словца. Большинство мультимодальных систем имеют один «главный» модальный режим (обычно текст), а остальные — как дополнение. Здесь всё иначе: текст, видео, изображения, окружающий звук и действия обрабатываются как равноправные участники единого процесса.

Для робототехники это критически важно. Робот в реальном мире воспринимает информацию сразу из множества источников — камеры, микрофоны, сенсоры давления. Если модель умеет синхронно рассуждать обо всех этих потоках, она гораздо лучше понимает контекст ситуации. Именно здесь Cosmos 3 потенциально обходит специализированные решения — не потому что лучше в каждой отдельной задаче, а потому что видит картину целиком.

Линейка: Super, Nano и Edge

Модель выходит в трёх конфигурациях. Super — для задач, где нужна максимальная физическая точность и качество. Nano — компактная версия для быстрой генерации и прототипирования. Обе уже доступны. Edge — версия для инференса в реальном времени прямо на устройстве — выйдет позже.

Это умное разделение. Разработчик, который тестирует гипотезу на ноутбуке, возьмёт Nano. Производитель промышленных роботов, которому нужна точность до миллиметра, — Super. А Edge открывает возможность для автономных систем, которые не могут позволить себе задержку облачного запроса — беспилотники, роботы-курьеры, промышленные манипуляторы.

Открытый код: стратегия или альтруизм?

Все версии Cosmos 3 открыты. И вот здесь начинается самое интересное с точки зрения бизнес-логики. NVIDIA открывает модели — и это выгодно всем, включая саму NVIDIA. Больше разработчиков строят на Cosmos → больше компаний внедряют физический ИИ → больше вычислений нужно для обучения и инференса → больше продаётся GPU.

Минг-Ю Лю, вице-президент Cosmos Labs, прямо говорит: фундаментальные модели — это лишь отправная точка. Реальная ценность создаётся в экосистеме вокруг них. И открытый код — это способ максимально быстро построить эту экосистему. Сравните с подходом OpenAI, который держит GPT-4o за закрытым API: у разработчиков нет возможности запустить его локально, кастомизировать под специфику своего производства, контролировать данные. Для робототехники, где данные часто коммерчески чувствительны, это блокирующий фактор.

Генерализация — нерешённая проблема

Несмотря на весь оптимизм, Лю честен: Cosmos 3 не решает главную проблему физического ИИ. Генерализация — способность робота или агента применять знания в незнакомых ситуациях — остаётся «святым граалем» робототехники. Cosmos 3 создаёт архитектурную основу для движения в этом направлении, но не финишную черту.

Это важная оговорка, которую легко потерять в маркетинговом шуме. Мы видим модель, которая умеет рассуждать о физике лучше предыдущих решений, но всё ещё далека от того, чтобы робот мог зайти на незнакомый завод и сразу начать работать. Путь предстоит долгий.

Что это значит для российских разработчиков

Cosmos 3 доступен на Hugging Face — и это хорошая новость. Модель можно скачать и запустить локально без зависимости от западных облачных сервисов. VPN для скачивания весов может потребоваться в зависимости от региона, но сама модель после загрузки работает автономно. Для компаний, работающих в робототехнике, промышленной автоматизации или разрабатывающих автономные системы — это реальный инструмент, который стоит изучить уже сейчас.

Мы стоим у начала эпохи, когда ИИ выйдет из экранов в физический мир. Cosmos 3 — один из первых серьёзных шагов в этом направлении. Не последний, но, возможно, один из самых важных.

NVIDIA Cosmos 3: открытая омни-модель для физического ИИ и роботов

Когда мир устал от языковых моделей

Что внутри: архитектура, которая меняет правила

Омни — значит всё сразу

Линейка: Super, Nano и Edge

Открытый код: стратегия или альтруизм?

Генерализация — нерешённая проблема

Что это значит для российских разработчиков

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

54% компаний уже пострадали от ИИ-агентов: дыра в безопасности растёт

1Password и Claude: ИИ теперь логинится за вас без доступа к паролям

Thinking Machines выпустила Inkling: 975B открытая мультимодальная модель