Qwen 3.5

Qwen 3.5

Открытая модель Alibaba нового поколения под Apache 2.0 — догоняет закрытые GPT-5 и Claude по бенчмаркам. Работает в России без VPN, доступна через API и self-hosting.

Free (open weights) / $0.40 за 1M input-токенов через Alibaba CloudРаботает в РФ
8.5/10📅 2026-02🏢 Alibaba (Qwen)✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
8.5/10
Benchmark Score
8.3/10
Скорость
8.5/10
MMLU
89.2%
MATH
79.8%
HumanEval
86.2%
Arena ELO
1325

Входные и выходные данные

Входные данные
текст
Выходные данные
текст

API и стоимость

Входные токены (Input)
Free (open weights) / $0.40 за 1M input-токенов через Alibaba Cloud
цена за промпт
Выходные токены (Output)
$1.20 / 1M токенов
цена за ответ
API доступен

Способы доступа

API (Alibaba CloudOpenRouter)Self-hostedHuggingFaceOllama

Сценарии использования

разработкакоданализRAGкорпоративный чатботмультиязычные задачи

Тарифы и подписки — Alibaba (Qwen)

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Open Weights (self-host)
Бесплатно
  • Полные веса модели на HuggingFace и ModelScope
  • Лицензия Apache 2.0 — коммерческое использование разрешено
  • Запуск через vLLM, Ollama, llama.cpp, Transformers
  • Никаких API-ограничений
  • Требуется своя GPU-инфраструктура
Популярный
Alibaba Cloud API (Pay-as-you-go)
$0.40 / 1M input + $1.20 / 1M output
  • Доступ через Alibaba Cloud Model Studio
  • 128K контекст
  • Скорость ~80 токенов/сек
  • SLA 99.5%
  • OpenAI-совместимый API
OpenRouter (без Alibaba Cloud)
~$0.45 / 1M input + $1.35 / 1M output
  • Доступ без регистрации в Alibaba Cloud
  • Принимаются международные карты
  • Единый API для всех моделей
  • Небольшая наценка ~10%
Корпоративный / VPC
По запросу
  • Dedicated инстансы
  • On-premises развёртывание
  • Поддержка от Alibaba Cloud
  • Compliance-сертификации
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Полностью open source под Apache 2.0 — можно self-host и коммерчески использовать
Работает в России без VPN — сайт qwen.ai и Alibaba Cloud доступны
Конкурирует с GPT-5 и Claude по MMLU (89.2%) и HumanEval (86.2%)
Дешевле GPT-5 в ~7 раз по input-токенам ($0.40 vs $2.50)
128K контекст — хватает для больших кодовых баз и документов
Отличная поддержка мультиязычности, включая русский язык
✗ Минусы
Российские карты не принимаются Alibaba Cloud — нужен зарубежный счёт
Для self-hosting нужна мощная GPU-инфраструктура (минимум A100 80GB для полной модели)
Русский язык слабее английского и китайского — иногда смешивает иероглифы
Меньше готовых интеграций чем у OpenAI/Anthropic
Arena ELO 1325 всё ещё ниже GPT-5 (~1400) и Claude Opus 4.7 (~1390)

Подробный обзор

Что такое Qwen 3.5

Qwen 3.5 — открытая языковая модель от команды Alibaba DAMO Academy, выпущенная в феврале 2026 года. Это флагман линейки Qwen после Qwen 3 (июнь 2025) и Qwen 3 Max (ноябрь 2025). Модель распространяется под лицензией Apache 2.0 — веса опубликованы на HuggingFace и ModelScope, допускается коммерческое использование без роялти. Qwen 3.5 построена на архитектуре dense Transformer с улучшенным RoPE, GQA и новой схемой претрейна на 15T токенов (английский, китайский, код, математика, мультиязычный корпус). По бенчмаркам модель почти догнала закрытые флагманы: MMLU 89.2% (Claude Opus 4.7 — ~91%, GPT-5 — ~91.5%), HumanEval 86.2%, MATH 79.8%, Arena ELO 1325.

Главное преимущество: открытый код под Apache 2.0

В отличие от GPT-5, Claude Opus 4.7 и Gemini 3 Pro, Qwen 3.5 — это полностью открытые веса. Любой пользователь или компания может скачать модель с HuggingFace, запустить её на собственных серверах, дообучить под свои задачи (fine-tune), модифицировать архитектуру и использовать в коммерческих продуктах без отчислений Alibaba. Apache 2.0 — одна из самых либеральных лицензий: не требует открывать свой код, не запрещает использование в закрытых продуктах, не ограничивает количество пользователей. Для корпоративных клиентов это критично: данные не уходят на чужие серверы, compliance-риски минимальны, затраты предсказуемы.

Технические характеристики

  • Архитектура: dense Transformer, RoPE, Grouped Query Attention
  • Контекстное окно: 128 000 токенов (эквивалент ~96 000 слов или 300 страниц)
  • Максимум output-токенов за один запрос: 16 384
  • Обучающий корпус: 15 триллионов токенов (английский, китайский, 50+ языков, код, математика)
  • Скорость генерации: ~80 токенов/сек через Alibaba Cloud API
  • Доступные размеры: Qwen3.5-7B, Qwen3.5-14B, Qwen3.5-72B, Qwen3.5-110B (флагман)
  • Типы: Base (pre-trained), Instruct (chat), Coder (специализированная на коде)
  • Квантизация: официальные AWQ и GPTQ веса для 4-bit и 8-bit инференса

Сравнение с проприетарными моделями

По данным независимых бенчмарков (LiveBench, Arena, MixEval) Qwen 3.5 находится на 3-4 месте среди всех моделей мира и на первом месте среди open-source. На MMLU Pro (сложная версия MMLU с ловушками) Qwen 3.5 набирает 72.4% — это на 2-3% ниже GPT-5 и Claude Opus 4.7, но выше Gemini 3 Pro. По HumanEval (генерация Python-кода) — 86.2% vs ~90% у GPT-5. По MATH — 79.8%, что лучше Claude 3.7 Sonnet (77.5%), но хуже o3 (93.4%). Главное отличие: цена. Qwen 3.5 стоит $0.40/1M input против $2.50 у GPT-5 и $3.00 у Claude Opus 4.7 — разница в 6-8 раз. Для RAG-пайплайнов, где на один запрос уходит 50-100K контекста, это даёт экономию в десятки раз.

Эволюция семейства Qwen

  • Qwen 1.0 (авг 2023) — первый публичный релиз, 7B и 14B, 8K контекст
  • Qwen 2.5 (сен 2024) — 72B, 128K контекст, MMLU 84%
  • Qwen 2.5 Max (янв 2025) — закрытая MoE-версия, 325B active params
  • Qwen 3 (июн 2025) — 235B MoE, thinking mode, MMLU 87%
  • Qwen 3 Max (ноя 2025) — 1T+ параметров, фронтирная производительность, агентные задачи
  • Qwen 3.5 (фев 2026) — текущая версия, Apache 2.0, MMLU 89.2%
  • Qwen 3.6 Plus (мар 2026) — закрытая версия с 1M контекстом, немного сильнее 3.5

Доступность в России — ключевой плюс

Qwen 3.5 — одна из немногих фронтирных моделей, которая работает в России без VPN. Сайт qwen.ai, чат chat.qwen.ai, HuggingFace-репозиторий, ModelScope и Alibaba Cloud — всё доступно с российских IP. Это принципиальное отличие от ChatGPT (заблокирован OpenAI для РФ), Claude (тоже заблокирован Anthropic) и Gemini (недоступен Google AI Studio без VPN). Правда, есть ограничение: Alibaba Cloud не принимает российские карты (МИР, Visa/Mastercard российских банков), поэтому для оплаты API нужен зарубежный счёт или карта. Решение: использовать OpenRouter (платит криптовалютой или через международные платёжные системы) либо self-host локально, что полностью решает проблему оплаты. Для русскоязычных задач Qwen 3.5 работает лучше старых open-source моделей (Llama 3, Mistral), но всё ещё слабее GPT-5 — иногда смешивает иероглифы в длинных ответах.

Self-hosting и аппаратные требования

Для самостоятельного запуска Qwen 3.5 нужна серьёзная GPU-инфраструктура. Версия Qwen3.5-110B (флагман) в FP16 требует ~220 ГБ VRAM — это минимум две A100 80GB или одна H100 80GB + NVMe swap. Для квантизованных версий (AWQ 4-bit) хватит одной A100 80GB или двух RTX 4090 через tensor parallelism. Qwen3.5-14B легко помещается на одну RTX 4090 (24 ГБ) в 8-bit и даёт скорость 40-60 токенов/сек. Qwen3.5-7B запускается даже на RTX 3090 (24 ГБ) в FP16 или на Apple M3/M4 через Ollama. Самый популярный стек для продакшн self-hosting: vLLM (быстрый inference с continuous batching) + LLMCache (KV cache redistribution) + Prometheus + Grafana (мониторинг).

Часто задаваемые вопросы

Работает ли Qwen 3.5 в России без VPN?
Да, полностью. Сайт qwen.ai, чат chat.qwen.ai, HuggingFace (huggingface.co/Qwen), ModelScope и Alibaba Cloud — всё открывается с российских IP без VPN. Это ключевое отличие от ChatGPT, Claude и Gemini, которые заблокированы для РФ своими провайдерами. Единственное ограничение — Alibaba Cloud не принимает российские карты для оплаты API, но это обходится через OpenRouter (криптовалюта или зарубежные карты) или self-hosting локально.
Сколько стоит Qwen 3.5 в 2026 году?
Open weights — полностью бесплатно. Скачали с HuggingFace и запустили на своих серверах. Через Alibaba Cloud API цена: $0.40 за 1M input-токенов и $1.20 за 1M output-токенов — это в 6-8 раз дешевле GPT-5 ($2.50/$10) и Claude Opus 4.7 ($3/$15). Через OpenRouter — небольшая наценка ~10% ($0.45/$1.35). Для корпоративных клиентов доступны dedicated инстансы в Alibaba Cloud с выделенной инфраструктурой — цена по запросу, обычно начинается от $5000/мес за 72B модель.
Qwen 3.5 действительно конкурирует с GPT-5 и Claude Opus 4.7?
По большинству бенчмарков Qwen 3.5 находится в пределах 2-5% от GPT-5 и Claude Opus 4.7. MMLU: 89.2% (Qwen) vs ~91% (GPT-5). HumanEval: 86.2% vs ~90%. MATH: 79.8% vs ~85%. Arena ELO: 1325 vs ~1400. На кодинге и математике Qwen немного отстаёт, на анализе текстов и мультиязычности — почти равна. Где Qwen явно выигрывает: цена (в 6-8 раз дешевле), работа в России, возможность self-hosting, и полная прозрачность весов.
Можно ли использовать Qwen 3.5 в коммерческом продукте бесплатно?
Да, и это главное преимущество модели. Лицензия Apache 2.0 прямо разрешает коммерческое использование, модификацию и распространение производных работ. Не нужно платить Alibaba роялти, не нужно открывать свой код (в отличие от GPL), не нужно указывать авторов в UI (достаточно в NOTICE-файле). Единственные ограничения Apache 2.0: сохранять оригинальные copyright-нотисы в исходниках и не использовать торговые марки Alibaba без разрешения. На практике большинство компаний просто скачивают веса с HuggingFace и интегрируют в продукт без какого-либо юридического контакта с Alibaba.
Какое железо нужно для self-hosting Qwen 3.5?
Зависит от размера модели. Qwen3.5-7B: одна RTX 3090 или RTX 4090 (24 ГБ VRAM), даёт 50-80 токенов/сек. Qwen3.5-14B: одна RTX 4090 в 8-bit квантизации или две карты в FP16. Qwen3.5-72B: одна A100 80GB в 4-bit (AWQ) или две A100 80GB в FP16. Qwen3.5-110B (флагман): минимум две A100 80GB или одна H100 80GB + NVMe swap для FP16, либо одна A100 80GB для AWQ 4-bit. Для production используют vLLM (continuous batching) — это в 2-3 раза быстрее наивного Transformers. На Apple Silicon (M3/M4) через Ollama/llama.cpp работает только до 14B версии с приемлемой скоростью.
Насколько хорошо Qwen 3.5 говорит по-русски?
Лучше всех предыдущих open-source моделей (Llama 3, Mistral, старые Qwen), но слабее GPT-5 и Claude по русскому. Основные проблемы: иногда смешивает русский и китайский/английский в длинных ответах, чуть хуже следует сложным русским грамматическим конструкциям, и чуть слабее улавливает российский культурный контекст. Для простых задач (саммаризация, перевод, ответы на вопросы) — работает отлично. Для генерации художественных русских текстов или юридических документов лучше GPT-5. Для технических задач на английском с русскими именами/названиями — Qwen справляется на уровне топовых моделей.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно