Qwen 3.7 Max обошёл Claude и GPT: Alibaba бесплатно раздаёт флагман

Alibaba только что перевернула рынок ИИ-моделей. Их новый флагман Qwen 3.7 Max не просто догнал западных лидеров — он их обошёл в ключевых бенчмарках, при этом доступен бесплатно через веб-интерфейс. Я протестировал модель и разобрал все публикации — вот что действительно важно.
Цифры, которые впечатляют
На математическом тесте HMMT 2026 модель набрала 97.1 балла — это лучший результат среди всех существующих систем. Claude Opus 4.6 отстал с 96.2. По научным рассуждениям GPQA Diamond — 92.4 против 91.3 у Claude. На бенчмарке Apex, который проверяет способность к сложным рассуждениям, разрыв ещё больше: 44.5 против 38.3 у DeepSeek V4 Pro.
В рейтинге Arena AI модель заняла третье место с 1386 баллами, обогнав GPT-4o и DeepSeek-R1. Впереди только Gemini 2.5 Pro и GPT-4.5. Для открытой модели из Китая это невероятный скачок — ещё год назад такое казалось невозможным.
35 часов без перерыва: настоящий прорыв
Но цифры бенчмарков — это одно. Реальная магия началась, когда Alibaba дала модели задачу по оптимизации GPU-ядра на незнакомой архитектуре T-Head ZW-M890. Никакой документации, никаких подсказок — только описание задачи и исходный код.
Qwen 3.7 Max работала 35 часов непрерывно, сделав 1158 вызовов инструментов и 432 проверки производительности. Результат? Ускорение кода в 10 раз по сравнению с референсной реализацией. Модель сама диагностировала ошибки компиляции, находила узкие места через профилирование и переписывала архитектуру.
Другие модели в тех же условиях показали куда скромнее результаты: GLM 5.1 выдал ускорение в 7.3 раза, Kimi K2.6 — в 5 раз, DeepSeek V4 Pro — всего 3.3x. А предыдущая версия Qwen 3.6 Plus вообще едва достигла 1.1x. Некоторые конкуренты сами завершили работу досрочно, решив, что дальнейшие улучшения невозможны.
Агент, который зарабатывает миллионы
В симуляторе стартапа YC-Bench модель показала себя как настоящий бизнес-агент. Ей дали управление виртуальной компанией на год — и она принесла $2.08 миллиона выручки. Это вдвое больше, чем предыдущая версия ($1.05 млн).
Модель сама нанимала сотрудников, проверяла контракты, выявляла мошенников среди клиентов и держала маржу. Она исследовала рынок, добавляла подозрительных партнёров в чёрный список и выходила из кризисов без вмешательства человека. Долгосрочное планирование работает — и это уже не лабораторный эксперимент.
Офис, код и роботы
Practical use cases впечатляют не меньше бенчмарков. Модель автоматически форматирует диссертации по регламенту: читает требования и приводит в порядок Word-документ — шрифты, поля, оглавление, ссылки. Генерирует интерактивные веб-приложения на Three.js, Canvas и SVG из одного промпта.
А ещё управляет роботом-собакой через вызовы инструментов, ориентируется в физическом пространстве и ведёт долгосрочную память. Это не просто чат-бот — это полноценный агент, способный работать в реальном мире.
Но есть нюансы
Не всё идеально. Время ответа на сложный запрос — 4.7 секунды, что на 30% медленнее Gemini 2.5 Pro (3.6 сек). Для чат-ботов поддержки это может быть критично.
В тестах на здравый смысл CommonsenseQA модель допустила 12% ошибок — вдвое больше, чем GPT-4o (6%). То есть в простых житейских вопросах западные модели пока впереди.
Как подключить прямо сейчас
Самое важное: чат полностью бесплатный на chat.qwen.ai — нужна только регистрация. Для разработчиков есть API через Alibaba Cloud, и он совместим с протоколом Anthropic API. То есть можно заменить Claude в Claude Code одной переменной окружения:
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=
Стоимость API — около $0.50 за миллион токенов (по текущему курсу примерно 45 рублей). Для сравнения: GPT-4o стоит $2.50 за миллион токенов — в пять раз дороже.
Что это значит для рынка
По данным из российских источников, среди local стартапов Qwen уже занимает 15% рынка open-source AI — вдвое больше, чем Llama 4. После анонса капитализация Alibaba на Гонконгской бирже выросла на 2.3% за день до $615 миллиардов.
Китайские модели больше не догоняют — они конкурируют на равных с OpenAI и Anthropic. Причём делают это бесплатно для конечных пользователей и в пять раз дешевле через API. Модель поддерживает контекст в 1 миллион токенов и готова к интеграции в существующие инструменты.
Для российских разработчиков это особенно важно: западные API часто недоступны или требуют VPN и зарубежные карты. Alibaba Cloud работает без этих ограничений, а качество модели позволяет строить production-решения без компромиссов.
Мой вердикт
Qwen 3.7 Max — это не просто очередная китайская модель. Это реальный конкурент топовым закрытым системам, который доступен бесплатно и показывает лучшие результаты в агентных задачах. Да, есть задержка ответа. Да, в простых вопросах GPT-4o может быть точнее. Но для автоматизации, кода, длинных цепочек задач и автономной работы — это новый стандарт.
И главное: эпоха, когда передовой ИИ был привилегией тех, кто может платить OpenAI, закончилась. Alibaba показала, что флагманское качество может быть доступно всем.
Информация подтверждена несколькими независимыми публикациями и официальным блогом разработчика.
Похожие новости
ИИ-галлюцинации захватывают медицинские статьи: рост в 12 раз за два года
Аудит 2,5 миллиона биомедицинских работ выявил катастрофический рост фиктивных ссылок — с 2023 года их число увеличилось более чем в 12 раз. Под угрозой клинические рекомендации.
Together AI открывает OSCAR: сжатие KV-кэша до 2 бит без потери точности
Together AI выпустила OSCAR — систему квантования KV-кэша до INT2, которая впервые делает 2-битное сжатие практичным для длинных контекстов без деградации качества.
ИИ даёт правильный ответ, но ссылается на несуществующее место в документе
Исследователи Пекинского университета выяснили: даже когда GPT и Gemini отвечают верно, они часто указывают на неправильные фрагменты документа — и это огромная проблема для юристов и медиков.