VibeThinker-3B: крошечная модель бьёт гигантов в математике

Когда размер перестаёт решать всё

Представьте: вы приходите на математическую олимпиаду, а рядом с вами за партой сидит участник, который весит в 333 раза меньше всех остальных — и при этом решает задачи не хуже. Примерно так выглядит дебют VibeThinker-3B от китайской компании Sina, материнской структуры Weibo. Модель с тремя миллиардами параметров демонстрирует результаты, сопоставимые с DeepSeek V3.2 и Kimi K2.5 на серьёзных математических бенчмарках. Это не «хорошо для своего размера» — это просто хорошо, точка.

Я слежу за гонкой маленьких моделей давно, и честно скажу: такого разрыва между размером и производительностью я ещё не видел. Это меняет несколько фундаментальных представлений о том, как устроен интеллект языковых моделей.

Цифры, которые сложно объяснить размером

На бенчмарке AIME26 — это задачи американских математических олимпиад, не детские упражнения — VibeThinker-3B держится в одной группе с Gemini 3 Pro, GLM-5 и Claude Opus 4.5. На IMO-AnswerBench модель почти догоняет DeepSeek V3.2, хотя тот содержит сотни миллиардов параметров.

Но самый убедительный тест — это LiveCodeBench и реальные соревнования на LeetCode. Команда специально выбрала контесты, проходившие с конца апреля по конец мая 2026 года — уже после завершения обучения модели, чтобы исключить утечку тренировочных данных. Результат: 123 из 128 задач решены с первой попытки. VibeThinker-3B обогнала GPT-5.2, Qwen3-Max, Kimi K2.5 и Claude Opus 4.6. Уступила только GPT-5.3-Codex и двум версиям Gemini — но совсем немного.

Среди всех моделей до 20 миллиардов параметров VibeThinker-3B вообще лучшая на LiveCodeBench. Это уже не статистический артефакт — это воспроизводимый результат.

Секрет в пост-тренировке, а не в архитектуре

Важно понять: базовая модель здесь — Qwen2.5-Coder-3B от Alibaba. Sina не изобретала новую архитектуру и не собирала уникальные данные с нуля. Вся магия — в том, что происходит после предобучения.

Пост-тренировка устроена как многоступенчатый конвейер. Сначала — широкое supervised fine-tuning по математике, коду и диалогу. Затем модель специализируется на многошаговых задачах рассуждения. Дальше идёт reinforcement learning — последовательно для математики, программирования и STEM. После этого — self-distillation, которая «склеивает» навыки из разных этапов в единую модель. И финальный штрих: обучение следовать инструкциям.

Ключевой приём на этапе fine-tuning — намеренное разнообразие путей решения. Не один правильный ответ, а множество траекторий рассуждения. Reinforcement learning потом отбирает те, что работают надёжнее. Это напоминает эволюционный отбор: не проектируешь идеальное решение, а создаёшь условия, при которых оно само выживает.

Гипотеза, которая важнее самой модели

Исследователи Sina сформулировали идею, которая мне кажется по-настоящему ценной. Они предлагают разделить интеллектуальные способности ИИ на два типа.

Первый — структурированное логическое рассуждение: математика, алгоритмы, формальная логика. Этот тип хорошо «сжимается» — для него не нужно огромного количества параметров, достаточно правильно выученных паттернов. Три миллиарда параметров справляются.

Второй — широкие фактические знания о мире: история, биология, медицина, право, география. Здесь маленькая модель падает. На GPQA-Diamond — бенчмарке, где нужны глубокие знания из реальных научных дисциплин — VibeThinker-3B заметно отстаёт от крупных конкурентов. Мир слишком разнообразен, чтобы его можно было упаковать в три миллиарда весов.

Это элегантная гипотеза. И если она верна, она объясняет многое: почему маленькие модели так хорошо пишут код, но путаются в датах исторических событий. Код — это структура. История — это огромный массив несвязанных фактов.

Что это значит на практике

Для разработчиков новость отличная. Модель весом ~6 ГБ (примерная оценка для 3B в 16-бит) реально запускается на потребительском железе — хорошей игровой видеокарте или Apple Silicon. При этом на задачах кодирования она даст фору многим облачным решениям, за которые вы платите поминутно.

Для бизнеса — интересная точка входа в локальный деплой. Если ваш продукт завязан на математике или программировании, а не на энциклопедических знаниях, VibeThinker-3B может закрыть 80% задач при минимальных затратах на инфраструктуру.

Для российских пользователей: модель опубликована в открытом доступе. Sina позиционирует её как open-source эксперимент, так что скачать веса и запустить локально можно без VPN и без привязки карты. Это принципиально отличает её от GPT-5.x и Gemini, доступ к которым из России по-прежнему требует ухищрений.

Контекст: куда движется индустрия

VibeThinker-3B — не одиночный феномен. Мы видим целое направление: phi-4 от Microsoft, Gemma 3 от Google, Qwen3 от Alibaba — все пытаются выжать максимум из малых форм-факторов. Но большинство из них честно говорят «хорошо для своего класса». Sina делает более смелое заявление: «просто хорошо».

И в математике с кодированием это заявление подкреплено данными. Посмотрим, насколько воспроизводимым окажется результат в руках независимых исследователей — это всегда главный вопрос при таких громких релизах.

Предшественник VibeThinker-1.5B вышел в ноябре 2025-го. За семь месяцев команда сделала качественный скачок. Если темп сохранится, следующая версия может оказаться ещё интереснее.

VibeThinker-3B: крошечная модель бьёт гигантов в математике

Когда размер перестаёт решать всё

Цифры, которые сложно объяснить размером

Секрет в пост-тренировке, а не в архитектуре

Гипотеза, которая важнее самой модели

Что это значит на практике

Контекст: куда движется индустрия

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

iLLaDA от ByteDance: диффузионная LLM, которая не хуже Qwen2.5

Белый дом тормозит GPT-5.6: почему вы не можете его попробовать

GPT-5.6 под контролем Вашингтона: доступ только с одобрения правительства США