NVIDIA Cosmos 3: открытая омни-модель для физического ИИ и роботов

Когда мир устал от языковых моделей
Пока половина индустрии продолжает наращивать параметры очередных LLM, NVIDIA тихо делает ставку на то, что многие называют следующим фронтиром ИИ — физический мир. На конференции GTC Taipei в рамках Computex компания представила Cosmos 3, и это не просто очередное обновление с приставкой «улучшенный». Это принципиально другой класс моделей, которые должны научить машины понимать физическую реальность — со всеми её законами, движением, пространством и причинно-следственными связями.
Я слежу за направлением world models уже несколько лет, и честно скажу: большинство попыток создать «модель мира» заканчивались красивыми демо и невпечатляющими результатами на практике. Cosmos 3 выглядит иначе — хотя бы потому, что NVIDIA не пытается продать нам готовое решение, а открывает фундамент для разработчиков.
Что внутри: архитектура, которая меняет правила
Главная техническая изюминка Cosmos 3 — новая архитектура под названием «mixture-of-transformers». Грубо говоря, это гибрид двух типов трансформеров: один заточен под рассуждение и понимание, второй — под генерацию. Они работают вместе, и это позволяет модели сначала «подумать» о том, как объекты взаимодействуют в пространстве и времени, а потом уже генерировать видео или траектории движения.
Сравните это с тем, как работают обычные видеогенераторы вроде Sora или Runway — они впечатляют визуально, но у них нет внутренней физической модели мира. Они угадывают следующий кадр статистически. Cosmos 3 пытается делать что-то принципиально другое: понимать, почему мяч отскочит под определённым углом, прежде чем нарисовать этот отскок.
Отдельно впечатляет масштаб обучающих данных: 20 триллионов токенов, 1 миллиард изображений и 400 миллионов видео — как реальных, так и синтетических. Для контекста: это один из крупнейших мультимодальных датасетов для физического ИИ, который когда-либо использовался публично. Такой объём данных о физическом мире — это не просто количество, это качественный скачок в понимании пространственно-временных зависимостей.
Омни — значит всё сразу
Космос 3 называют «омни-моделью» не для красного словца. Большинство мультимодальных систем имеют один «главный» модальный режим (обычно текст), а остальные — как дополнение. Здесь всё иначе: текст, видео, изображения, окружающий звук и действия обрабатываются как равноправные участники единого процесса.
Для робототехники это критически важно. Робот в реальном мире воспринимает информацию сразу из множества источников — камеры, микрофоны, сенсоры давления. Если модель умеет синхронно рассуждать обо всех этих потоках, она гораздо лучше понимает контекст ситуации. Именно здесь Cosmos 3 потенциально обходит специализированные решения — не потому что лучше в каждой отдельной задаче, а потому что видит картину целиком.
Линейка: Super, Nano и Edge
Модель выходит в трёх конфигурациях. Super — для задач, где нужна максимальная физическая точность и качество. Nano — компактная версия для быстрой генерации и прототипирования. Обе уже доступны. Edge — версия для инференса в реальном времени прямо на устройстве — выйдет позже.
Это умное разделение. Разработчик, который тестирует гипотезу на ноутбуке, возьмёт Nano. Производитель промышленных роботов, которому нужна точность до миллиметра, — Super. А Edge открывает возможность для автономных систем, которые не могут позволить себе задержку облачного запроса — беспилотники, роботы-курьеры, промышленные манипуляторы.
Открытый код: стратегия или альтруизм?
Все версии Cosmos 3 открыты. И вот здесь начинается самое интересное с точки зрения бизнес-логики. NVIDIA открывает модели — и это выгодно всем, включая саму NVIDIA. Больше разработчиков строят на Cosmos → больше компаний внедряют физический ИИ → больше вычислений нужно для обучения и инференса → больше продаётся GPU.
Минг-Ю Лю, вице-президент Cosmos Labs, прямо говорит: фундаментальные модели — это лишь отправная точка. Реальная ценность создаётся в экосистеме вокруг них. И открытый код — это способ максимально быстро построить эту экосистему. Сравните с подходом OpenAI, который держит GPT-4o за закрытым API: у разработчиков нет возможности запустить его локально, кастомизировать под специфику своего производства, контролировать данные. Для робототехники, где данные часто коммерчески чувствительны, это блокирующий фактор.
Генерализация — нерешённая проблема
Несмотря на весь оптимизм, Лю честен: Cosmos 3 не решает главную проблему физического ИИ. Генерализация — способность робота или агента применять знания в незнакомых ситуациях — остаётся «святым граалем» робототехники. Cosmos 3 создаёт архитектурную основу для движения в этом направлении, но не финишную черту.
Это важная оговорка, которую легко потерять в маркетинговом шуме. Мы видим модель, которая умеет рассуждать о физике лучше предыдущих решений, но всё ещё далека от того, чтобы робот мог зайти на незнакомый завод и сразу начать работать. Путь предстоит долгий.
Что это значит для российских разработчиков
Cosmos 3 доступен на Hugging Face — и это хорошая новость. Модель можно скачать и запустить локально без зависимости от западных облачных сервисов. VPN для скачивания весов может потребоваться в зависимости от региона, но сама модель после загрузки работает автономно. Для компаний, работающих в робототехнике, промышленной автоматизации или разрабатывающих автономные системы — это реальный инструмент, который стоит изучить уже сейчас.
Мы стоим у начала эпохи, когда ИИ выйдет из экранов в физический мир. Cosmos 3 — один из первых серьёзных шагов в этом направлении. Не последний, но, возможно, один из самых важных.
Источники
Похожие новости
ИИ от OpenAI опроверг математическую гипотезу, мучившую учёных 80 лет
Модель OpenAI самостоятельно доказала несостоятельность гипотезы Эрдёша о единичных расстояниях — задачи, которую математики не могли решить с 1946 года.
SoftBank вложит €75 млрд в дата-центры Франции: крупнейшая ИИ-ставка в Европе
Японский технологический гигант анонсировал строительство дата-центров суммарной мощностью до 5 гигаватт — это крупнейшая ИИ-инфраструктурная инвестиция компании на европейском континенте.
Gemini Spark: Google запустил ИИ-агента, который работает без вас 24/7
Google представила Gemini Spark — персонального ИИ-агента, который планирует вашу жизнь в фоновом режиме. Но за удобством скрываются тревожные нюансы.