xAI выпустила Grok Code Fast 1: агентное кодирование на скорости 92 токена/с

Когда скорость важнее идеального ответа

Есть один вопрос, который я задаю себе каждый раз, когда выходит очередная «лучшая в мире» кодинговая модель: а как она ведёт себя не в бенчмарке, а в реальной сессии разработки, когда ты жмёшь Tab каждые пять секунд и ждёшь, пока инструмент переварит твой монорепозиторий? Именно с этого угла xAI зашла в рынок с Grok Code Fast 1 — и, честно говоря, угол выбран грамотно.

Grok Code Fast 1 — это не очередной апдейт базовой модели с перекрашенным логотипом. xAI построила архитектуру с нуля под конкретную задачу: агентные кодинговые воркфлоу, где модель не просто дополняет строчку, а самостоятельно шарит по файловой системе, запускает grep, редактирует файлы и взаимодействует с терминалом. Это принципиально другой режим работы по сравнению с автодополнением.

Что внутри: 314 миллиардов параметров и MoE

Под капотом — архитектура Mixture of Experts с оценочным числом параметров 314 млрд. Это сближает модель по дизайну с Gemini 1.5 Pro от Google DeepMind, но специализация здесь куда уже: весь корпус предобучения составлен из программистских данных, а постобучение строилось на реальных pull request'ах и практических задачах разработки. Не синтетика, а живой опыт из репозиториев.

Контекстное окно — 256 тысяч токенов. Для кодинга это критично: можно загнать в контекст целый сервис среднего размера и работать с ним без постоянной нарезки. Claude 3.5 Sonnet предлагает 200k токенов, GPT-4o — 128k. Здесь xAI берёт больше.

Производительность при этом держится на уровне 92 токена в секунду — это уже не «быстро для такого размера», это реально интерактивный темп. Когда агент бежит по кодовой базе и отчитывается о каждом шаге, задержка в 300–500 мс между токенами превращает сессию в пытку. 92 t/s делают взаимодействие живым.

Кэширование промптов: 90%+ попаданий

Отдельно хочу выделить то, о чём обычно пишут в сноске, а не в заголовке: кэш-хит рейт выше 90% в партнёрских воркфлоу. Это огромная цифра. Для агентных сценариев, где системный промпт и контекст кодовой базы повторяются в каждом запросе, кэширование — это прямая экономия и задержки, и стоимости. Anthropic ввёл prompt caching в Claude ещё в 2024-м, но добиться 90%+ попаданий — это уже вопрос архитектурных решений на уровне сервинга, а не просто фича.

SWE-Bench: 70.8% — хорошо, но не рекорд

На SWE-Bench Verified модель набирает 70.8% по внутренней методологии xAI. Для понимания контекста: Claude Sonnet 3.7 с расширенным мышлением достигал значений в районе 70–72% в разных конфигурациях, OpenAI o3 в агентном режиме — выше 70%. То есть Grok Code Fast 1 находится в верхнем эшелоне, но не устанавливает новый потолок точности.

И это, похоже, осознанный выбор. xAI прямо позиционирует модель как «скорость и интеграция с инструментами» против «максимальная точность в бенчмарке». Это честная позиция — особенно если вспомнить, что SWE-Bench измеряет успех в изолированных задачах, а не в многошаговых агентных сессиях с реальным тулингом.

Где уже можно попробовать

Модель доступна через GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode и Windsurf — пока бесплатно в рамках лимитированного запуска для партнёров. Для российских разработчиков главный вопрос практический: Cursor работает в РФ, но требует зарубежной карты для подписки. GitHub Copilot — аналогично. VPN при первичной регистрации может понадобиться, при дальнейшей работе — зависит от провайдера.

Что меня немного удивляет — отсутствие CLI на старте. Разработчик Jonathan Parra в комментариях точно поймал суть: «нужен CLI, чтобы конкурировать с Claude Code». Claude Code от Anthropic именно через терминальный интерфейс захватил сердца DevOps-инженеров и backend-разработчиков, которые не хотят открывать браузер для каждого агентного запроса. У Grok Code Fast 1 пока этого нет — и это реальный пробел.

Что дальше

xAI уже анонсировала следующую версию в процессе обучения: мультимодальный ввод, параллельное использование инструментов и расширенный контекст. Параллельный тулкол — это именно то, что нужно для сложных агентных пайплайнов, где одновременно нужно читать файл, запрашивать документацию и проверять тесты. Если это реализуют без деградации скорости — будет интересно.

По большому счёту, xAI делает ставку на нишу, которую другие игроки не закрыли полностью: специализированная, быстрая, хорошо закэшированная модель для агентного кодирования с глубокой интеграцией в существующие IDE-экосистемы. Не универсальный гигант, а заточенный инструмент. В мире, где Cursor и Windsurf уже стали стандартом для профессиональных разработчиков, такой подход может оказаться куда умнее, чем гонка за абсолютным рекордом в бенчмарках.

xAI выпустила Grok Code Fast 1: агентное кодирование на скорости 92 токена/с

Когда скорость важнее идеального ответа

Что внутри: 314 миллиардов параметров и MoE

Кэширование промптов: 90%+ попаданий

SWE-Bench: 70.8% — хорошо, но не рекорд

Где уже можно попробовать

Что дальше

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ИИ научился взламывать браузеры: Claude Mythos против GPT-5.5

Ollama 0.24: Codex App теперь работает локально без подписки OpenAI

xAI открыл ранний доступ к Grok Build: строим приложения на Grok