VibeThinker-3B: крошечная модель бьёт гигантов в математике

Когда размер перестаёт решать всё
Представьте: вы приходите на математическую олимпиаду, а рядом с вами за партой сидит участник, который весит в 333 раза меньше всех остальных — и при этом решает задачи не хуже. Примерно так выглядит дебют VibeThinker-3B от китайской компании Sina, материнской структуры Weibo. Модель с тремя миллиардами параметров демонстрирует результаты, сопоставимые с DeepSeek V3.2 и Kimi K2.5 на серьёзных математических бенчмарках. Это не «хорошо для своего размера» — это просто хорошо, точка.
Я слежу за гонкой маленьких моделей давно, и честно скажу: такого разрыва между размером и производительностью я ещё не видел. Это меняет несколько фундаментальных представлений о том, как устроен интеллект языковых моделей.
Цифры, которые сложно объяснить размером
На бенчмарке AIME26 — это задачи американских математических олимпиад, не детские упражнения — VibeThinker-3B держится в одной группе с Gemini 3 Pro, GLM-5 и Claude Opus 4.5. На IMO-AnswerBench модель почти догоняет DeepSeek V3.2, хотя тот содержит сотни миллиардов параметров.
Но самый убедительный тест — это LiveCodeBench и реальные соревнования на LeetCode. Команда специально выбрала контесты, проходившие с конца апреля по конец мая 2026 года — уже после завершения обучения модели, чтобы исключить утечку тренировочных данных. Результат: 123 из 128 задач решены с первой попытки. VibeThinker-3B обогнала GPT-5.2, Qwen3-Max, Kimi K2.5 и Claude Opus 4.6. Уступила только GPT-5.3-Codex и двум версиям Gemini — но совсем немного.
Среди всех моделей до 20 миллиардов параметров VibeThinker-3B вообще лучшая на LiveCodeBench. Это уже не статистический артефакт — это воспроизводимый результат.
Секрет в пост-тренировке, а не в архитектуре
Важно понять: базовая модель здесь — Qwen2.5-Coder-3B от Alibaba. Sina не изобретала новую архитектуру и не собирала уникальные данные с нуля. Вся магия — в том, что происходит после предобучения.
Пост-тренировка устроена как многоступенчатый конвейер. Сначала — широкое supervised fine-tuning по математике, коду и диалогу. Затем модель специализируется на многошаговых задачах рассуждения. Дальше идёт reinforcement learning — последовательно для математики, программирования и STEM. После этого — self-distillation, которая «склеивает» навыки из разных этапов в единую модель. И финальный штрих: обучение следовать инструкциям.
Ключевой приём на этапе fine-tuning — намеренное разнообразие путей решения. Не один правильный ответ, а множество траекторий рассуждения. Reinforcement learning потом отбирает те, что работают надёжнее. Это напоминает эволюционный отбор: не проектируешь идеальное решение, а создаёшь условия, при которых оно само выживает.
Гипотеза, которая важнее самой модели
Исследователи Sina сформулировали идею, которая мне кажется по-настоящему ценной. Они предлагают разделить интеллектуальные способности ИИ на два типа.
Первый — структурированное логическое рассуждение: математика, алгоритмы, формальная логика. Этот тип хорошо «сжимается» — для него не нужно огромного количества параметров, достаточно правильно выученных паттернов. Три миллиарда параметров справляются.
Второй — широкие фактические знания о мире: история, биология, медицина, право, география. Здесь маленькая модель падает. На GPQA-Diamond — бенчмарке, где нужны глубокие знания из реальных научных дисциплин — VibeThinker-3B заметно отстаёт от крупных конкурентов. Мир слишком разнообразен, чтобы его можно было упаковать в три миллиарда весов.
Это элегантная гипотеза. И если она верна, она объясняет многое: почему маленькие модели так хорошо пишут код, но путаются в датах исторических событий. Код — это структура. История — это огромный массив несвязанных фактов.
Что это значит на практике
Для разработчиков новость отличная. Модель весом ~6 ГБ (примерная оценка для 3B в 16-бит) реально запускается на потребительском железе — хорошей игровой видеокарте или Apple Silicon. При этом на задачах кодирования она даст фору многим облачным решениям, за которые вы платите поминутно.
Для бизнеса — интересная точка входа в локальный деплой. Если ваш продукт завязан на математике или программировании, а не на энциклопедических знаниях, VibeThinker-3B может закрыть 80% задач при минимальных затратах на инфраструктуру.
Для российских пользователей: модель опубликована в открытом доступе. Sina позиционирует её как open-source эксперимент, так что скачать веса и запустить локально можно без VPN и без привязки карты. Это принципиально отличает её от GPT-5.x и Gemini, доступ к которым из России по-прежнему требует ухищрений.
Контекст: куда движется индустрия
VibeThinker-3B — не одиночный феномен. Мы видим целое направление: phi-4 от Microsoft, Gemma 3 от Google, Qwen3 от Alibaba — все пытаются выжать максимум из малых форм-факторов. Но большинство из них честно говорят «хорошо для своего класса». Sina делает более смелое заявление: «просто хорошо».
И в математике с кодированием это заявление подкреплено данными. Посмотрим, насколько воспроизводимым окажется результат в руках независимых исследователей — это всегда главный вопрос при таких громких релизах.
Предшественник VibeThinker-1.5B вышел в ноябре 2025-го. За семь месяцев команда сделала качественный скачок. Если темп сохранится, следующая версия может оказаться ещё интереснее.
Источники
Похожие новости
iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5
ByteDance и Университет Жэньминь выпустили iLLaDA — 8B модель, генерирующую текст не токен за токеном, а сразу целыми последовательностями. На базовых бенчмарках она обходит Qwen2.5 7B.
Белый дом тормозит GPT-5.6: почему вы не можете его попробовать
OpenAI задержала релиз GPT-5.6 по требованию администрации Трампа — через две недели после того, как Anthropic был вынужден отключить свои топовые модели.
GPT-5.6 под контролем Вашингтона: доступ только с одобрения правительства США
OpenAI вынуждена выдавать доступ к GPT-5.6 поштучно — каждого клиента должно одобрить американское правительство. Сэм Альтман назвал это «не предпочтительной долгосрочной моделью».