Oppo открыла код X-OmniClaw: ИИ-агент видит, слышит и работает прямо на телефоне

Агент, который живёт в телефоне, а не в дата-центре

Представьте: вы наводите камеру на банку крема в магазине и спрашиваете «сколько это стоит на Wildberries?» — и телефон сам открывает приложение, вбивает запрос и показывает цену. Без голосового помощника, который тупит. Без облака, которое видит все ваши фото. Именно это и делает X-OmniClaw — новый открытый ИИ-агент от команды Multi-X компании Oppo, который я считаю одним из самых честных технических релизов в нише мобильных ИИ-агентов за последние месяцы.

Oppo опубликовала исходный код и технический отчёт по X-OmniClaw 17 мая 2026 года. Проект сразу привлёк внимание: не очередная демка на YouTube, а реальная открытая архитектура, которую можно потрогать руками.

Принципиальное отличие от облачных агентов

Вся индустрия мобильных ИИ-агентов последние два года шла по одному пути: берёшь виртуальный Android в облаке (привет, RedFinger, Alibaba Wuying, Tencent Cloud Phone), запускаешь там агента, он кликает по эмулятору. Удобно для разработчика — агент видит весь интерфейс через скриншоты, никаких проблем с доступом к системе. Но есть фундаментальная проблема: такой агент физически не может прикоснуться к вашей камере, микрофону или личным фото. Это виртуальная машина, изолированная от реального мира.

X-OmniClaw делает ровно наоборот. Вся логика восприятия, управления и взаимодействия с приложениями работает непосредственно на устройстве. Облако подключается только для «тяжёлого» рассуждения — как внешний процессор для сложных задач, а не как центр управления. Oppo называет это ролью «топлива», а не мозга системы. Мне нравится эта метафора: облако здесь — бензин, а не водитель.

Три канала восприятия в одном пайплайне

Архитектурно X-OmniClaw объединяет камеру, экран и голос в единый поток данных. Сначала визуально-языковая модель интерпретирует сцену вместе с запросом пользователя — и только потом система переходит к действиям. Это важный момент: агент не бросается кликать сразу, а сначала «думает» над контекстом.

Пример из технического отчёта: пользователь спрашивает «сколько это стоит на Taobao?», наводя камеру на продукт. Система внутренне перефразирует запрос в «цена Evian spray на Taobao» и только потом передаёт структурированное намерение на исполнение. Звучит как мелочь, но именно такое промежуточное переформулирование резко снижает количество ошибочных действий — это подтверждают и исследования по ReAct-агентам от Google.

Галерея как долговременная память

Одна из самых неожиданных фич — то, как X-OmniClaw обращается с фотогалереей. В режиме простоя агент обрабатывает снимки локально: создаёт компактные текстовые описания объектов, сцен и событий, сохраняет всё в файл `image-memory.md`. По сути — персональная семантическая база данных из ваших воспоминаний.

Каждая запись проходит через фильтр чувствительного контента перед сохранением. Oppo прямо признаёт: пока часть обработки изображений всё ещё уходит в облако, и это риск. Переход на полностью локальные модели зрения — следующий шаг в roadmap. Честность в техническом отчёте подкупает: компания не делает вид, что проблемы нет.

Клонирование поведения вместо пошагового повтора

Классические агенты работают как магнитофонная запись: запомнили последовательность кликов — воспроизводят её. X-OmniClaw умнее: он клонирует намерение, а не путь. Агент извлекает прямую команду запуска нужного экрана приложения (deeplink) и в следующий раз прыгает туда напрямую, минуя весь сценарий навигации.

Если deeplink не работает — система автоматически откатывается к более простым методам запуска. Для определения кликабельных элементов используется комбинация XML-структуры интерфейса, модели grounding и OCR. Это критично для приложений, перегруженных рекламой, где XML-дерево само по себе не позволяет точно определить, куда именно нажать.

Что это значит для разработчиков и бизнеса

Открытый код — это серьёзная заявка. Разработчики могут взять X-OmniClaw как основу для собственных агентов под Android, не строя инфраструктуру с нуля. Для бизнеса это особенно интересно в сценариях, где конфиденциальность данных критична: медицина, юриспруденция, корпоративные приложения. Когда агент не гонит ваши данные в облако — это меняет разговор с юридическим отделом.

Сравните с тем, что предлагает, например, Google с Gemini Nano на Pixel: там тоже есть on-device обработка, но архитектура закрытая, и вы полностью зависите от того, что Google решит поддерживать. X-OmniClaw — открытая платформа, которую можно форкнуть, модифицировать, встроить в собственный продукт.

Российский контекст

Для российских пользователей и разработчиков ситуация интересная. Исходный код опубликован на GitHub — доступ через обычный браузер без VPN. Смартфоны Oppo официально в России не продаются с 2022 года, но архитектура X-OmniClaw не привязана к конкретному железу Oppo: это Android-агент, теоретически совместимый с любым устройством на Android. Разработчики смогут адаптировать его под российские приложения — тот же Wildberries, Ozon, Сбер.

Мой вывод

X-OmniClaw — это не просто академическая демонстрация. Это рабочая архитектура, решающая реальную проблему: как дать ИИ-агенту доступ к полному сенсорному контексту устройства, не превращая телефон в терминал дата-центра. Oppo делает правильную ставку: будущее мобильных агентов — на устройстве, а не в облаке.

Открытый исходный код здесь — стратегический ход. Oppo не крупнейший игрок в экосистеме Android-ИИ, но через открытое сообщество может стать стандартом де-факто для on-device агентов раньше, чем Google или Samsung успеют закрыть эту нишу своими проприетарными решениями. Посмотрим, насколько быстро разработчики подхватят.

Oppo открыла код X-OmniClaw: ИИ-агент видит, слышит и работает прямо на телефоне

Агент, который живёт в телефоне, а не в дата-центре

Принципиальное отличие от облачных агентов

Три канала восприятия в одном пайплайне

Галерея как долговременная память

Клонирование поведения вместо пошагового повтора

Что это значит для разработчиков и бизнеса

Российский контекст

Мой вывод

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Anthropic хочет создавать собственные лекарства с помощью ИИ

Nvidia стала венчурным банком: как чипмейкер финансирует свою монополию

Fable 5 и Mythos 5 от Anthropic вышли на мировой рынок после проверки Трампа