ИИ кодил 19 дней без остановки: бенчмарк MirrorCode меняет всё

Когда ИИ работает дольше, чем длится командировка

Представьте: вы уходите в отпуск на три недели, а когда возвращаетесь — ИИ-агент всё ещё пишет код. Именно это произошло в рамках нового бенчмарка MirrorCode от Epoch AI и METR. Один из тестовых запусков занял 19 дней непрерывной работы и обошёлся в $2 600 — за один прогон. Это не баг и не недоразумение. Это намеренная демонстрация того, на что способны современные ИИ-агенты, когда им дают достаточно времени и ресурсов.

До сих пор большинство бенчмарков для кодинга выглядели примерно так: дай модели задачу, ограничь бюджет $1–10, засеки пару минут — и получи результат. Это удобно для сравнения таблиц, но катастрофически далеко от реальной инженерной работы. MirrorCode задаёт принципиально другой вопрос: что происходит, когда у ИИ есть недели и реальный бюджет?

Что такое MirrorCode и почему это важно

Суть бенчмарка элегантна в своей жестокости. Агент получает доступ только к исполняемому файлу программы — он может запускать её с любыми аргументами и наблюдать за выводом. Исходного кода нет. Интернета нет. Только «чёрный ящик» как оракул и задача: воссоздать программу с нуля так, чтобы она давала идентичные результаты на скрытых тестах.

25 целевых программ охватывают Unix-утилиты, биоинформатику, криптографию, интерпретаторы, сериализацию данных и сжатие — на шести языках программирования. Оценка бинарная: либо воссозданная программа проходит все тесты, либо нет. Никаких половинчатых зачётов.

Это принципиально отличается от SWE-bench (пропатчить баг в известном репозитории) или LiveCodeBench (алгоритмические задачки). MirrorCode проверяет способность агента удерживать архитектуру многонедельного проекта в голове — без коллапса, без потери контекста, без того чтобы начать галлюцинировать на третий день.

Claude Opus 4.7 воссоздаёт биоинформатический тулкит за 14 часов

Главный результат, который облетел все технические издания: Claude Opus 4.7 полностью переписал gotree — биоинформатический инструментарий на Go объёмом около 16 000 строк с более чем 40 командами для манипуляций с филогенетическими деревьями. Задача, на которую опытному инженеру понадобилось бы от 2 до 17 недель, была выполнена за 14 часов при стоимости $251.

При этом модель самостоятельно диагностировала, что реальная реализация gotree игнорирует стандарт Newick-кавычек вопреки документации — и скорректировала свой парсер под фактическое поведение, а не под то, что написано в мануале. Это уже не просто генерация кода по шаблону. Это метауровень понимания.

Эволюция по поколениям Claude впечатляет: Opus 4.0 проходил лишь 15% тестов gotree и делал преждевременные сабмиты, Opus 4.5 добирался до 63% с архитектурными проблемами, а Opus 4.6/4.7 закрыл задачу практически полностью — 1900 из 1901 теста.

Таблица лидеров и ценовые парадоксы

Общий рейтинг MirrorCode выглядит так:

- Claude Opus 4.7 — 56% задач решено - GPT-5.5 — 44% - Gemini 3.1 Pro Preview — 32%

Год назад лучшие модели едва дотягивали до 30% и справлялись только с простыми утилитами вроде календаря. Прогресс очевидный, но важно понимать контекст: крупные задачи не решил ни один из тестируемых агентов. Все три категории сложности ведут себя по-разному — мелкие программы воспроизводятся надёжно, средние — с переменным успехом, большие — пока terra incognita для любой модели.

Ценовая картина тоже неоднозначна: GPT-5.5 обходится втрое дороже GPT-5 на тех же задачах, тогда как Claude Opus 4.7 стоит втрое дешевле Claude Opus 4.1. Это говорит о том, что гонка эффективности ведётся параллельно гонке возможностей — и Anthropic пока выигрывает по соотношению цена/результат.

Что это означает для разработчиков и бизнеса

MirrorCode меняет рамку разговора об ИИ-агентах в разработке. Рынок движется от автодополнения кода к делегированной инженерии — когда агент берёт на себя ограниченный, но реальный кусок работы. Codex, Claude Code, GitHub Copilot Agents, Cursor — все они пытаются стать системами, которым можно передать задачу и получить готовый результат.

Ключевой вывод из MirrorCode для практиков: агенты уже выполняют многонедельную работу, когда задача имеет чёткую спецификацию и проверяемый результат. Проблема большинства корпоративных проектов не в том, что агент не умеет кодить — а в том, что требования сформулированы размыто, граничные условия не описаны, а критерий успеха субъективен.

Для российских разработчиков: Claude доступен через API с использованием VPN, оплата возможна через зарубежные карты или посредников. GPT-5.5 от OpenAI — аналогичная ситуация. Прямого доступа без обходных решений пока нет, что делает эти инструменты скорее для команд с международной инфраструктурой.

Честность о границах и проблема меморизации

Epoch AI сами предупреждают об одном существенном caveat: поскольку MirrorCode использует открытые программы в качестве целей, модели могли видеть оригинальный код во время обучения. Предварительные тесты показывают, что результаты не определяются полностью меморизацией, но исключить её вклад невозможно. Три программы из 25 оставлены закрытыми именно для будущего тестирования без этого риска.

Авторы также честно фиксируют слабые места в коде, который генерирует даже лучший агент: 36 дублированных блоков парсинга аргументов, магические числа (-997, -998, -999) в полях данных, ранние архитектурные решения, которые не пересматриваются даже когда агент сам их признаёт неоптимальными. Функциональная корректность и качество кода — пока разные вещи.

Scaffold и 22 из 25 программ опубликованы в открытом доступе — это важно для независимой верификации.

Информация о бенчмарке подтверждена несколькими независимыми публикациями, включая технические разборы от специализированных AI-изданий и официальные посты Epoch AI и METR.

ИИ кодил 19 дней без остановки: бенчмарк MirrorCode меняет всё

Когда ИИ работает дольше, чем длится командировка

Что такое MirrorCode и почему это важно

Claude Opus 4.7 воссоздаёт биоинформатический тулкит за 14 часов

Таблица лидеров и ценовые парадоксы

Что это означает для разработчиков и бизнеса

Честность о границах и проблема меморизации

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

TensorRT 11.0: NVIDIA научила ИИ-инференс работать на нескольких GPU сразу

Cursor: собственная ИИ-модель, Git-платформа и мобильное приложение

OpenAI атакует уязвимости: GPT-5.5-Cyber и «Залатать планету»