Anthropic
ИИ-чатClaude Opus 4.8AnthropicGPT-5.5агентный ИИбенчмарки

Claude Opus 4.8 обходит GPT-5.5 и меняет правила агентной разработки

Сергей Сергеев, редактор gen-hub.ru
Сергей Сергеев
Редактор gen-hub.ru
·4 мин чтения
Claude Opus 4.8 обходит GPT-5.5 и меняет правила агентной разработки

Скромно? Только на словах

Анthropicлюбит занижать ожидания. «Modest but tangible improvement» — так компания сама охарактеризовала Claude Opus 4.8 перед релизом. Но когда «скромная» модель обходит GPT-5.5 по 12 из протестированных категорий и задаёт новый стандарт честности в работе с кодом — это уже не скромность, а стратегическое позиционирование. Anthropic просто не хочет, чтобы вы слишком завысили планку до следующего настоящего прорыва — Claude Mythos.

Что по цифрам

На бенчмарке SWE-bench Pro, который считается наиболее близким к реальной инженерной работе, Opus 4.8 набирает 69,2% против 64,3% у предшественника Opus 4.7 и лишь 58,6% у GPT-5.5. Разрыв с OpenAI — более десяти процентных пунктов. Это не статистический шум.

На SWE-bench Verified результат чуть скромнее: 88,6% против 87,6% у 4.7, но здесь важна не дельта, а абсолютный уровень. На Terminal-Bench 2.1 — 74,6% против 66,1% у предшественника, прирост почти в девять пунктов.

Для многодисциплинарного рассуждения (тест Humanity's Last Exam) Opus 4.8 показывает 49,8% без инструментов и 57,9% с инструментами — лучшие результаты в классе. GPT-5.5 сохраняет преимущество только в терминальных CLI-сценариях и примерно равен на задачах браузерной навигации и аспирантской науки. Gemini 3.1 Pro при этом оказывается третьим практически везде.

Главная фича: модель, которая не врёт сама себе

Вот что меня по-настоящему зацепило. Большинство языковых моделей страдают одним и тем же пороком: они уверенно докладывают о прогрессе, даже когда прогресса нет. Баг есть — модель молчит. Тест не прошёл — модель пишет «всё хорошо».

Anthropicзаявляет, что Opus 4.8 в четыре раза реже пропускает баги без предупреждения, чем Opus 4.7. Ранние тестировщики подтверждают: модель чаще явно сигнализирует о неуверенности и реже делает необоснованные утверждения. Это не мелочь — это принципиальный сдвиг в том, как ИИ взаимодействует с разработчиком.

Показатели по просоциальным метрикам (поддержка автономии пользователя, снижение обманных паттернов) вышли на уровень, который Anthropicсравнивает с Claude Mythos — своей следующей, пока ещё закрытой моделью.

Динамические воркфлоу: сотни агентов за один вызов

Наряду с самой моделью Anthropicвыкатила то, что я считаю главным сюрпризом релиза — dynamic workflows. Теперь Claude может спланировать задачу и запустить сотни параллельных субагентов в рамках одной сессии.

Практическое применение уже есть: Claude Code с Opus 4.8 способен выполнять миграции кодовой базы через сотни тысяч строк — от планирования до финального мержа. Databricks сообщает о «качественном скачке в агентном рассуждении» внутри своего агента Genie при снижении стоимости токенов на 61% по сравнению с Opus 4.7 — за счёт мультимодальной эффективности на PDF и диаграммах. Разработчики Devin из Cognition отмечают, что 4.8 устранил проблемы с избыточными комментариями и вызовами инструментов, характерные для 4.7.

Функция доступна на планах Enterprise, Team и Max.

Контроль усилий: новый рычаг

Рядом с выбором модели на claude.ai и в Cowork появился новый элемент управления — effort control. Проще говоря, вы сами решаете, насколько усердно Claude работает над ответом. Четыре режима: low, medium, high (по умолчанию для 4.8), extra/xhigh и max — последние два рекомендуются для особо сложных задач и сжигают больше токенов, но Anthropicповышает лимиты для пользователей Claude Code, чтобы компенсировать расход.

Ценообразование: стандарт держится, Fast Mode дешевеет в три раза

Стандартные цены не изменились относительно Opus 4.7: $5 за миллион входных токенов и $25 за миллион выходных. Для сравнения, GPT-5.5 стоит $5/$30 — Anthropicоказывается дешевле при более высокой производительности.

Настоящий сюрприз — Fast Mode. Режим ускоренной генерации (примерно 2,5x быстрее стандартного) теперь стоит $10/$50 за миллион токенов — против $30/$150 для Opus 4.7. Трёхкратное снижение цены открывает высокопроизводительный инференс для latency-sensitive продакшн-нагрузок, которые раньше просто не могли себе позволить топовую модель Anthropic.

API-идентификатор: `claude-opus-4-8`. Fast Mode в Claude Code — команда `/fast`, через API — пока по вейтлисту на claude.com/fast-mode.

Mythos на горизонте

Mythos — следующая ступень в иерархии Anthropic — сейчас доступна лишь ограниченному кругу организаций в рамках Project Glasswing для работы в области кибербезопасности. Компания обещает открыть доступ «в ближайшие недели» после завершения дополнительных проверок безопасности. Opus 4.8 по своим характеристикам находится между 4.7 и Mythos Preview — это промежуточная станция, а не конечная.

Что это значит для российских разработчиков

API Anthropicдоступен через стандартные прокси-решения и ряд российских агрегаторов, которые уже добавили Opus 4.8 в свои каталоги. Прямая оплата картами РФ по-прежнему невозможна — нужны зарубежные карты или оплата через посредников. Claude.ai как интерфейс работает с VPN без проблем.

Для команд, использующих агентные пайплайны на базе Claude Code, переход на 4.8 выглядит однозначно оправданным: прирост на SWE-bench Pro почти в пять процентных пунктов плюс трёхкратное удешевление Fast Mode — это реальная экономия на масштабе.

Вывод

Anthropicсделала ровно то, что обещала: не революцию, а чёткое улучшение по всем фронтам одновременно. Лучшие бенчмарки, честность без самообмана, агентная инфраструктура нового уровня и радикально более доступный быстрый режим — всё это выходит единым пакетом. GPT-5.5 пока отвечать нечем. Информация о релизе подтверждена несколькими независимыми публикациями, включая технические разборы и отчёты корпоративных партнёров Anthropic.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно

Похожие новости