Grok 4.1 от xAI: меньше галлюцинаций, выше бенчмарки, но без API

Когда маркетинг встречается с реальностью

XAI выбрала идеальный момент для анонса — буквально накануне презентации Google Gemini 3, который потом всё равно всех переиграл. Но даже в тени флагмана Google новый Grok 4.1 выглядит весьма убедительно. Это не косметическое обновление и не очередной «улучшенный промпт» — здесь серьёзная архитектурная переработка, которая видна в цифрах.

Модель появилась на Grok.com, в приложениях для iOS и Android и на платформе X одновременно. Пользователи уже могут её попробовать — никаких листов ожидания, никакого «скоро». Илон Маск умеет делать такие вещи быстро, это факт.

Два режима — для разных задач

Grok 4.1 существует в двух конфигурациях, и это правильное решение. Первый режим — быстрый, с минимальной задержкой, для тех случаев, когда нужен мгновенный ответ. Второй — «думающий» режим (Thinking), который перед ответом прогоняет задачу через многошаговое рассуждение. По сути, это то же разделение, которое мы видим у o3 от OpenAI и у Claude 4 с расширенным мышлением.

Разница между режимами — не просто скорость. Thinking-версия буквально иначе обрабатывает промпт: внутренний «монолог» модели влияет на качество финального ответа. Для сложных аналитических задач это критично. Для «напиши мне письмо коллеге» — избыточно.

Бенчмарки: почти на вершине

На LMArena Text Arena Grok 4.1 Thinking ненадолго занял первое место с нормализованным Elo-скором 1483. Ненадолго — потому что буквально через несколько часов Google выкатила Gemini 3 с феноменальным показателем 1501. Обидно, но показательно: конкуренция в топе сейчас настолько плотная, что «лучшая модель в мире» — это звание, которое держится часами.

Неthinking-версия Grok 4.1 показала 1465 Elo — тоже очень приличный результат, выше Gemini 2.5 Pro, Claude 4.5 и GPT-4.5 Preview. В творческом письме модель заняла второе место с оценкой 1721.9 по Creative Writing v3 — уступила только Polaris Alpha (ранней версии GPT-5.1). Это примерно на 600 пунктов лучше предыдущих версий Grok, что говорит о реальном скачке качества.

Отдельно xAI опубликовала white paper с методологией оценки и фрагментами информации о процессе обучения. Прозрачность — похвально, хотя академическое сообщество наверняка будет препарировать этот документ ещё долго.

Главная проблема: API закрыт

Вот здесь начинается самое интересное — и самое раздражающее для разработчиков. Grok 4.1 через API недоступен. Совсем. Никакого анонсированного срока, никакого бета-доступа. Только потребительские интерфейсы.

Через API xAI сейчас доступны Grok 4 Fast (в reasoning и обычном вариантах), Grok 4 0709, Grok 3, Grok 3 Mini и Grok 2 Vision. Контекстное окно — до 2 миллионов токенов, цены варьируются от $0.20 до $3.00 за миллион токенов в зависимости от конфигурации.

Когда через день после релиза xAI всё-таки открыла API-доступ к Grok 4.1, цены оказались весьма демократичными: $0.20 за миллион входящих токенов (или $0.05 для кешированных) и $0.50 за миллион выходных. Это делает модель одним из самых дешёвых frontier-вариантов на рынке — дешевле Claude 4 и сопоставимо с GPT-4o Mini при значительно более высоком качестве.

Но факт остаётся фактом: для production-интеграций, агентных пайплайнов и корпоративного использования такая задержка — серьёзный барьер. Пока разработчики ждут API, конкуренты не стоят на месте.

Что это значит для российских пользователей

Прямой ответ: VPN нужен. Grok.com и приложения xAI в России официально не работают, сервис недоступен без обхода блокировок. Оплата российскими картами тоже не проходит — только зарубежные платёжные инструменты или криптовалюта через сторонние сервисы.

Для тех, кто использует API через прокси или зарубежные аккаунты — технически это работает, но юридическая серая зона никуда не делась. Разработчики, строящие продукты на xAI API, должны учитывать этот риск в архитектуре.

Мой взгляд: сильный игрок со странной стратегией

Grok 4.1 — это реально хорошая модель. Снижение галлюцинаций, улучшенный эмоциональный интеллект (что бы под этим ни понималось в академическом смысле), высокие показатели в независимых тестах — всё это говорит о том, что xAI научилась делать конкурентоспособные LLM.

Но стратегия выпуска вызывает вопросы. Зачем анонсировать модель без API, когда основная монетизация для любой AI-компании идёт именно через разработчиков? Похоже на попытку набрать PR-очки до релиза Gemini 3 — и это сработало ровно настолько, насколько могло сработать. Пресса написала, пользователи попробовали, но Google всё равно забрала первое место.

Долгосрочно xAI нужно решить фундаментальный вопрос: они хотят быть потребительским продуктом внутри экосистемы X, или полноценной AI-платформой для разработчиков? Пока эти два направления конкурируют за приоритет внутри компании, и это видно по задержкам с API.

Grok 4.1 заслуживает внимания. Особенно если у вас есть VPN и зарубежная карта.

Grok 4.1 от xAI: меньше галлюцинаций, выше бенчмарки, но без API

Когда маркетинг встречается с реальностью

Два режима — для разных задач

Бенчмарки: почти на вершине

Главная проблема: API закрыт

Что это значит для российских пользователей

Мой взгляд: сильный игрок со странной стратегией

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

Anthropic запустила Claude Science — ИИ-лабораторию для учёных

Hugging Face показывает результаты всех бенчмарков прямо на страницах моделей

DSpark от DeepSeek: ИИ быстрее на 85% без топовых чипов