xAI выпустила Grok Code Fast 1: агентное кодирование на скорости 92 токена/с

Когда скорость важнее идеального ответа
Есть один вопрос, который я задаю себе каждый раз, когда выходит очередная «лучшая в мире» кодинговая модель: а как она ведёт себя не в бенчмарке, а в реальной сессии разработки, когда ты жмёшь Tab каждые пять секунд и ждёшь, пока инструмент переварит твой монорепозиторий? Именно с этого угла xAI зашла в рынок с Grok Code Fast 1 — и, честно говоря, угол выбран грамотно.
Grok Code Fast 1 — это не очередной апдейт базовой модели с перекрашенным логотипом. xAI построила архитектуру с нуля под конкретную задачу: агентные кодинговые воркфлоу, где модель не просто дополняет строчку, а самостоятельно шарит по файловой системе, запускает grep, редактирует файлы и взаимодействует с терминалом. Это принципиально другой режим работы по сравнению с автодополнением.
Что внутри: 314 миллиардов параметров и MoE
Под капотом — архитектура Mixture of Experts с оценочным числом параметров 314 млрд. Это сближает модель по дизайну с Gemini 1.5 Pro от Google DeepMind, но специализация здесь куда уже: весь корпус предобучения составлен из программистских данных, а постобучение строилось на реальных pull request'ах и практических задачах разработки. Не синтетика, а живой опыт из репозиториев.
Контекстное окно — 256 тысяч токенов. Для кодинга это критично: можно загнать в контекст целый сервис среднего размера и работать с ним без постоянной нарезки. Claude 3.5 Sonnet предлагает 200k токенов, GPT-4o — 128k. Здесь xAI берёт больше.
Производительность при этом держится на уровне 92 токена в секунду — это уже не «быстро для такого размера», это реально интерактивный темп. Когда агент бежит по кодовой базе и отчитывается о каждом шаге, задержка в 300–500 мс между токенами превращает сессию в пытку. 92 t/s делают взаимодействие живым.
Кэширование промптов: 90%+ попаданий
Отдельно хочу выделить то, о чём обычно пишут в сноске, а не в заголовке: кэш-хит рейт выше 90% в партнёрских воркфлоу. Это огромная цифра. Для агентных сценариев, где системный промпт и контекст кодовой базы повторяются в каждом запросе, кэширование — это прямая экономия и задержки, и стоимости. Anthropic ввёл prompt caching в Claude ещё в 2024-м, но добиться 90%+ попаданий — это уже вопрос архитектурных решений на уровне сервинга, а не просто фича.
SWE-Bench: 70.8% — хорошо, но не рекорд
На SWE-Bench Verified модель набирает 70.8% по внутренней методологии xAI. Для понимания контекста: Claude Sonnet 3.7 с расширенным мышлением достигал значений в районе 70–72% в разных конфигурациях, OpenAI o3 в агентном режиме — выше 70%. То есть Grok Code Fast 1 находится в верхнем эшелоне, но не устанавливает новый потолок точности.
И это, похоже, осознанный выбор. xAI прямо позиционирует модель как «скорость и интеграция с инструментами» против «максимальная точность в бенчмарке». Это честная позиция — особенно если вспомнить, что SWE-Bench измеряет успех в изолированных задачах, а не в многошаговых агентных сессиях с реальным тулингом.
Где уже можно попробовать
Модель доступна через GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode и Windsurf — пока бесплатно в рамках лимитированного запуска для партнёров. Для российских разработчиков главный вопрос практический: Cursor работает в РФ, но требует зарубежной карты для подписки. GitHub Copilot — аналогично. VPN при первичной регистрации может понадобиться, при дальнейшей работе — зависит от провайдера.
Что меня немного удивляет — отсутствие CLI на старте. Разработчик Jonathan Parra в комментариях точно поймал суть: «нужен CLI, чтобы конкурировать с Claude Code». Claude Code от Anthropic именно через терминальный интерфейс захватил сердца DevOps-инженеров и backend-разработчиков, которые не хотят открывать браузер для каждого агентного запроса. У Grok Code Fast 1 пока этого нет — и это реальный пробел.
Что дальше
xAI уже анонсировала следующую версию в процессе обучения: мультимодальный ввод, параллельное использование инструментов и расширенный контекст. Параллельный тулкол — это именно то, что нужно для сложных агентных пайплайнов, где одновременно нужно читать файл, запрашивать документацию и проверять тесты. Если это реализуют без деградации скорости — будет интересно.
По большому счёту, xAI делает ставку на нишу, которую другие игроки не закрыли полностью: специализированная, быстрая, хорошо закэшированная модель для агентного кодирования с глубокой интеграцией в существующие IDE-экосистемы. Не универсальный гигант, а заточенный инструмент. В мире, где Cursor и Windsurf уже стали стандартом для профессиональных разработчиков, такой подход может оказаться куда умнее, чем гонка за абсолютным рекордом в бенчмарках.
Похожие новости
ИИ научился взламывать браузеры: Claude Mythos против GPT-5.5
Исследователи CMU создали бенчмарк, где ИИ-агенты самостоятельно разрабатывают эксплойты для реальных уязвимостей. Mythos опережает GPT-5.5, но стоит в 12 раз дороже.
Ollama 0.24: Codex App теперь работает локально без подписки OpenAI
Ollama 0.24 интегрирует десктопный Codex App от OpenAI в локальный рантайм — одна команда, любая модель, ни одного токена в облаке.
xAI открыл ранний доступ к Grok Build: строим приложения на Grok
xAI запустила закрытую бету Grok Build — платформы для разработчиков, которая позволяет создавать приложения и агентов на базе моделей Grok. Это прямой вызов OpenAI Platform и Google AI Studio.