Qwen 3.5
Открытая модель Alibaba нового поколения под Apache 2.0 — догоняет закрытые GPT-5 и Claude по бенчмаркам. Работает в России без VPN, доступна через API и self-hosting.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Alibaba (Qwen)
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Полные веса модели на HuggingFace и ModelScope
- Лицензия Apache 2.0 — коммерческое использование разрешено
- Запуск через vLLM, Ollama, llama.cpp, Transformers
- Никаких API-ограничений
- Требуется своя GPU-инфраструктура
- Доступ через Alibaba Cloud Model Studio
- 128K контекст
- Скорость ~80 токенов/сек
- SLA 99.5%
- OpenAI-совместимый API
- Доступ без регистрации в Alibaba Cloud
- Принимаются международные карты
- Единый API для всех моделей
- Небольшая наценка ~10%
- Dedicated инстансы
- On-premises развёртывание
- Поддержка от Alibaba Cloud
- Compliance-сертификации
Плюсы и минусы
Подробный обзор
Что такое Qwen 3.5
Qwen 3.5 — открытая языковая модель от команды Alibaba DAMO Academy, выпущенная в феврале 2026 года. Это флагман линейки Qwen после Qwen 3 (июнь 2025) и Qwen 3 Max (ноябрь 2025). Модель распространяется под лицензией Apache 2.0 — веса опубликованы на HuggingFace и ModelScope, допускается коммерческое использование без роялти. Qwen 3.5 построена на архитектуре dense Transformer с улучшенным RoPE, GQA и новой схемой претрейна на 15T токенов (английский, китайский, код, математика, мультиязычный корпус). По бенчмаркам модель почти догнала закрытые флагманы: MMLU 89.2% (Claude Opus 4.7 — ~91%, GPT-5 — ~91.5%), HumanEval 86.2%, MATH 79.8%, Arena ELO 1325.
Главное преимущество: открытый код под Apache 2.0
В отличие от GPT-5, Claude Opus 4.7 и Gemini 3 Pro, Qwen 3.5 — это полностью открытые веса. Любой пользователь или компания может скачать модель с HuggingFace, запустить её на собственных серверах, дообучить под свои задачи (fine-tune), модифицировать архитектуру и использовать в коммерческих продуктах без отчислений Alibaba. Apache 2.0 — одна из самых либеральных лицензий: не требует открывать свой код, не запрещает использование в закрытых продуктах, не ограничивает количество пользователей. Для корпоративных клиентов это критично: данные не уходят на чужие серверы, compliance-риски минимальны, затраты предсказуемы.
Технические характеристики
- Архитектура: dense Transformer, RoPE, Grouped Query Attention
- Контекстное окно: 128 000 токенов (эквивалент ~96 000 слов или 300 страниц)
- Максимум output-токенов за один запрос: 16 384
- Обучающий корпус: 15 триллионов токенов (английский, китайский, 50+ языков, код, математика)
- Скорость генерации: ~80 токенов/сек через Alibaba Cloud API
- Доступные размеры: Qwen3.5-7B, Qwen3.5-14B, Qwen3.5-72B, Qwen3.5-110B (флагман)
- Типы: Base (pre-trained), Instruct (chat), Coder (специализированная на коде)
- Квантизация: официальные AWQ и GPTQ веса для 4-bit и 8-bit инференса
Сравнение с проприетарными моделями
По данным независимых бенчмарков (LiveBench, Arena, MixEval) Qwen 3.5 находится на 3-4 месте среди всех моделей мира и на первом месте среди open-source. На MMLU Pro (сложная версия MMLU с ловушками) Qwen 3.5 набирает 72.4% — это на 2-3% ниже GPT-5 и Claude Opus 4.7, но выше Gemini 3 Pro. По HumanEval (генерация Python-кода) — 86.2% vs ~90% у GPT-5. По MATH — 79.8%, что лучше Claude 3.7 Sonnet (77.5%), но хуже o3 (93.4%). Главное отличие: цена. Qwen 3.5 стоит $0.40/1M input против $2.50 у GPT-5 и $3.00 у Claude Opus 4.7 — разница в 6-8 раз. Для RAG-пайплайнов, где на один запрос уходит 50-100K контекста, это даёт экономию в десятки раз.
Эволюция семейства Qwen
- Qwen 1.0 (авг 2023) — первый публичный релиз, 7B и 14B, 8K контекст
- Qwen 2.5 (сен 2024) — 72B, 128K контекст, MMLU 84%
- Qwen 2.5 Max (янв 2025) — закрытая MoE-версия, 325B active params
- Qwen 3 (июн 2025) — 235B MoE, thinking mode, MMLU 87%
- Qwen 3 Max (ноя 2025) — 1T+ параметров, фронтирная производительность, агентные задачи
- Qwen 3.5 (фев 2026) — текущая версия, Apache 2.0, MMLU 89.2%
- Qwen 3.6 Plus (мар 2026) — закрытая версия с 1M контекстом, немного сильнее 3.5
Доступность в России — ключевой плюс
Qwen 3.5 — одна из немногих фронтирных моделей, которая работает в России без VPN. Сайт qwen.ai, чат chat.qwen.ai, HuggingFace-репозиторий, ModelScope и Alibaba Cloud — всё доступно с российских IP. Это принципиальное отличие от ChatGPT (заблокирован OpenAI для РФ), Claude (тоже заблокирован Anthropic) и Gemini (недоступен Google AI Studio без VPN). Правда, есть ограничение: Alibaba Cloud не принимает российские карты (МИР, Visa/Mastercard российских банков), поэтому для оплаты API нужен зарубежный счёт или карта. Решение: использовать OpenRouter (платит криптовалютой или через международные платёжные системы) либо self-host локально, что полностью решает проблему оплаты. Для русскоязычных задач Qwen 3.5 работает лучше старых open-source моделей (Llama 3, Mistral), но всё ещё слабее GPT-5 — иногда смешивает иероглифы в длинных ответах.
Self-hosting и аппаратные требования
Для самостоятельного запуска Qwen 3.5 нужна серьёзная GPU-инфраструктура. Версия Qwen3.5-110B (флагман) в FP16 требует ~220 ГБ VRAM — это минимум две A100 80GB или одна H100 80GB + NVMe swap. Для квантизованных версий (AWQ 4-bit) хватит одной A100 80GB или двух RTX 4090 через tensor parallelism. Qwen3.5-14B легко помещается на одну RTX 4090 (24 ГБ) в 8-bit и даёт скорость 40-60 токенов/сек. Qwen3.5-7B запускается даже на RTX 3090 (24 ГБ) в FP16 или на Apple M3/M4 через Ollama. Самый популярный стек для продакшн self-hosting: vLLM (быстрый inference с continuous batching) + LLMCache (KV cache redistribution) + Prometheus + Grafana (мониторинг).