Oppo открыла код X-OmniClaw: ИИ-агент видит, слышит и работает прямо на телефоне

Агент, который живёт в телефоне, а не в дата-центре
Представьте: вы наводите камеру на банку крема в магазине и спрашиваете «сколько это стоит на Wildberries?» — и телефон сам открывает приложение, вбивает запрос и показывает цену. Без голосового помощника, который тупит. Без облака, которое видит все ваши фото. Именно это и делает X-OmniClaw — новый открытый ИИ-агент от команды Multi-X компании Oppo, который я считаю одним из самых честных технических релизов в нише мобильных ИИ-агентов за последние месяцы.
Oppo опубликовала исходный код и технический отчёт по X-OmniClaw 17 мая 2026 года. Проект сразу привлёк внимание: не очередная демка на YouTube, а реальная открытая архитектура, которую можно потрогать руками.
Принципиальное отличие от облачных агентов
Вся индустрия мобильных ИИ-агентов последние два года шла по одному пути: берёшь виртуальный Android в облаке (привет, RedFinger, Alibaba Wuying, Tencent Cloud Phone), запускаешь там агента, он кликает по эмулятору. Удобно для разработчика — агент видит весь интерфейс через скриншоты, никаких проблем с доступом к системе. Но есть фундаментальная проблема: такой агент физически не может прикоснуться к вашей камере, микрофону или личным фото. Это виртуальная машина, изолированная от реального мира.
X-OmniClaw делает ровно наоборот. Вся логика восприятия, управления и взаимодействия с приложениями работает непосредственно на устройстве. Облако подключается только для «тяжёлого» рассуждения — как внешний процессор для сложных задач, а не как центр управления. Oppo называет это ролью «топлива», а не мозга системы. Мне нравится эта метафора: облако здесь — бензин, а не водитель.
Три канала восприятия в одном пайплайне
Архитектурно X-OmniClaw объединяет камеру, экран и голос в единый поток данных. Сначала визуально-языковая модель интерпретирует сцену вместе с запросом пользователя — и только потом система переходит к действиям. Это важный момент: агент не бросается кликать сразу, а сначала «думает» над контекстом.
Пример из технического отчёта: пользователь спрашивает «сколько это стоит на Taobao?», наводя камеру на продукт. Система внутренне перефразирует запрос в «цена Evian spray на Taobao» и только потом передаёт структурированное намерение на исполнение. Звучит как мелочь, но именно такое промежуточное переформулирование резко снижает количество ошибочных действий — это подтверждают и исследования по ReAct-агентам от Google.
Галерея как долговременная память
Одна из самых неожиданных фич — то, как X-OmniClaw обращается с фотогалереей. В режиме простоя агент обрабатывает снимки локально: создаёт компактные текстовые описания объектов, сцен и событий, сохраняет всё в файл `image-memory.md`. По сути — персональная семантическая база данных из ваших воспоминаний.
Каждая запись проходит через фильтр чувствительного контента перед сохранением. Oppo прямо признаёт: пока часть обработки изображений всё ещё уходит в облако, и это риск. Переход на полностью локальные модели зрения — следующий шаг в roadmap. Честность в техническом отчёте подкупает: компания не делает вид, что проблемы нет.
Клонирование поведения вместо пошагового повтора
Классические агенты работают как магнитофонная запись: запомнили последовательность кликов — воспроизводят её. X-OmniClaw умнее: он клонирует намерение, а не путь. Агент извлекает прямую команду запуска нужного экрана приложения (deeplink) и в следующий раз прыгает туда напрямую, минуя весь сценарий навигации.
Если deeplink не работает — система автоматически откатывается к более простым методам запуска. Для определения кликабельных элементов используется комбинация XML-структуры интерфейса, модели grounding и OCR. Это критично для приложений, перегруженных рекламой, где XML-дерево само по себе не позволяет точно определить, куда именно нажать.
Что это значит для разработчиков и бизнеса
Открытый код — это серьёзная заявка. Разработчики могут взять X-OmniClaw как основу для собственных агентов под Android, не строя инфраструктуру с нуля. Для бизнеса это особенно интересно в сценариях, где конфиденциальность данных критична: медицина, юриспруденция, корпоративные приложения. Когда агент не гонит ваши данные в облако — это меняет разговор с юридическим отделом.
Сравните с тем, что предлагает, например, Google с Gemini Nano на Pixel: там тоже есть on-device обработка, но архитектура закрытая, и вы полностью зависите от того, что Google решит поддерживать. X-OmniClaw — открытая платформа, которую можно форкнуть, модифицировать, встроить в собственный продукт.
Российский контекст
Для российских пользователей и разработчиков ситуация интересная. Исходный код опубликован на GitHub — доступ через обычный браузер без VPN. Смартфоны Oppo официально в России не продаются с 2022 года, но архитектура X-OmniClaw не привязана к конкретному железу Oppo: это Android-агент, теоретически совместимый с любым устройством на Android. Разработчики смогут адаптировать его под российские приложения — тот же Wildberries, Ozon, Сбер.
Мой вывод
X-OmniClaw — это не просто академическая демонстрация. Это рабочая архитектура, решающая реальную проблему: как дать ИИ-агенту доступ к полному сенсорному контексту устройства, не превращая телефон в терминал дата-центра. Oppo делает правильную ставку: будущее мобильных агентов — на устройстве, а не в облаке.
Открытый исходный код здесь — стратегический ход. Oppo не крупнейший игрок в экосистеме Android-ИИ, но через открытое сообщество может стать стандартом де-факто для on-device агентов раньше, чем Google или Samsung успеют закрыть эту нишу своими проприетарными решениями. Посмотрим, насколько быстро разработчики подхватят.
Источники
Похожие новости
ИИ от OpenAI опроверг 80-летнюю гипотезу в геометрии
Модель OpenAI самостоятельно решила задачу о единичных расстояниях Эрдёша — одну из самых известных открытых проблем комбинаторной геометрии за последние 80 лет.
Gemini 3.5 Flash: быстрее, дешевле и умнее флагмана Google
Google представила Gemini 3.5 Flash на I/O 2026 — модель обходит собственный флагман на ключевых бенчмарках, работает в 4 раза быстрее и стоит вдвое дешевле.
Google выпустила Gemini 3.5: агентный ИИ, который работает в 4 раза быстрее конкурентов
На Google I/O представлена новая серия моделей Gemini 3.5 Flash — она обгоняет флагманские модели по скорости и агентным задачам, уже доступна разработчикам.