Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Самая быстрая и дешёвая модель в линейке Gemini 3 от Google (превью — 3 марта 2026, GA — 7 мая): около 380 токенов/сек, контекст 1M, мультимодальный вход (текст, изображения, аудио, видео). Цена $0.25/$1.50 за 1M токенов — под высоконагруженные и латентно-чувствительные задачи. Сильна в мультимодальности для своего класса.

API $0.25 / $1.50 за 1M токенов; в приложении Gemini есть бесплатный доступНужен VPNРусский язык
8.2/10📅 2026-03-03🏢 Google DeepMindProprietary

Рейтинг и бенчмарки

Общий рейтинг
8.2/10
Benchmark Score
7.6/10
Скорость
9.5/10
Скорость
~380 токенов/сек — один из самых быстрых среди закрытых моделей
Цена
$0.25 / $1.50 за 1M — дешевле всех в линейке Gemini 3
Контекст
1M (вывод до ~66K)
GPQA Diamond
86.9%
MMMU-Pro
~77% — обходит более крупные модели на мультимодальности

Входные и выходные данные

Входные данные
текстизображениеаудиовидео
Выходные данные
текст

API и стоимость

Входные токены (Input)
API $0.25 / $1.50 за 1M токенов; в приложении Gemini есть бесплатный доступ
цена за промпт
Выходные токены (Output)
$1.50 / 1M токенов
цена за ответ
API доступен

Способы доступа

API (Google AI Studio)Google Cloud (Vertex AI)приложение Gemini

Сценарии использования

высоконагруженные и латентно-чувствительные задачиклассификация и извлечение данныхлёгкие агентымассовая обработкамультимодальный анализ

Тарифы и подписки — Google DeepMind

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Приложение Gemini (Free)
Бесплатно
  • Доступ к Flash-моделям с дневными лимитами
  • Веб и мобильные приложения
  • Мультимодальные запросы
Популярный
Google AI Pro
$20/мес
  • Повышенные лимиты и приоритет
  • Доступ к старшим моделям Gemini 3
  • Интеграция с Google Workspace
API (pay-as-you-go)
$0.25 / $1.50 за 1M
  • Вход $0.25, выход $1.50 за 1M токенов
  • Контекст 1M, вывод до ~66K
  • Google AI Studio и Vertex AI
  • Кеширование контекста и batch для экономии
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Один из самых быстрых на рынке: около 380 токенов/сек — почти мгновенные ответы для интерактива и массовой обработки
Самая дешёвая в линейке Gemini 3: $0.25/$1.50 за 1M — вдвое дешевле Gemini 3 Flash и в разы дешевле 3.5 Flash
Мультимодальный вход — текст, изображения, аудио и видео в одном запросе
Контекст 1M токенов при минимальной цене — большие документы и длинные диалоги дёшево
Сильна в мультимодальности для своего класса: ~77% на MMMU-Pro, обходит и более крупные модели
Хорошо понимает и генерирует русский язык
✗ Минусы
Не работает в России без VPN — приложение Gemini и Google AI Studio недоступны для российских IP
Российские карты не принимаются — оплата API и подписки только зарубежной картой
Это «облегчённая» модель: на сложных рассуждениях уступает Gemini 3.x Pro и топ-флагманам
Подорожала: цена примерно втрое выше предшественника прошлого поколения Flash-Lite
Проприетарная — только облако, без локального запуска и дообучения на своих данных
Часть версий идёт в статусе preview — параметры и цены ещё могут уточняться

Подробный обзор

Что такое Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite — самая быстрая и экономичная модель в линейке Gemini 3 от Google DeepMind. Превью вышло 3 марта 2026 года, GA-превью — 7 мая. В семействе Gemini 3 это «лёгкий» тир (ниже Flash и Pro), созданный под один сценарий: максимум скорости и минимум цены. По независимым замерам Artificial Analysis модель выдаёт около 380 токенов в секунду — один из самых быстрых результатов среди закрытых моделей крупных лабораторий.

Цена, скорость и контекст

  • $0.25 / $1.50 за 1M токенов (вход/выход) — самый дешёвый вариант в линейке Gemini 3: примерно вдвое дешевле Gemini 3 Flash и в разы дешевле 3.5 Flash
  • Контекст 1M токенов, вывод до ~66K — большие документы и длинные диалоги при минимальной стоимости
  • Мультимодальный вход — текст, изображения, аудио и видео
  • Несмотря на приставку «Lite», модель сильна в мультимодальности: ~77% на MMMU-Pro и 86.9% на GPQA Diamond — на этих тестах обходит и более крупные модели

Важный нюанс: по сравнению с Flash-Lite прошлого поколения модель «поумнела, но и подорожала» — цена выросла примерно втрое. Тем не менее внутри Gemini 3 это по-прежнему самый бюджетный вариант.

Кому подходит

Flash-Lite берут там, где важнее скорость и цена, чем пиковое качество рассуждений: классификация и извлечение данных, лёгкие агенты, автодополнение, чат-боты с высокой нагрузкой, массовая обработка документов и медиа. Для сложных многошаговых рассуждений лучше подойдут старшие Gemini 3.x Flash и Pro — Flash-Lite сознательно оптимизирована под throughput и низкую задержку, а не под максимальный «интеллект».

Доступность в России

Модель не работает в России без VPN — приложение Gemini (gemini.google.com) и Google AI Studio недоступны для российских IP, а российские карты для оплаты API и подписки не принимаются. Доступ возможен через VPN с зарубежной картой либо через посредников, дающих доступ к моделям Google с рублёвой оплатой. Сам по себе русский язык модель понимает и генерирует хорошо. Из работающих в России напрямую чат-моделей похожего бюджетного класса — YandexGPT и GigaChat.

Часто задаваемые вопросы

Что такое Gemini 3.1 Flash-Lite?
Самая быстрая и дешёвая модель в линейке Gemini 3 от Google (превью — 3 марта 2026, GA — 7 мая). Это «лёгкий» тир под высокую скорость (~380 токенов/сек) и минимальную цену ($0.25/$1.50 за 1M токенов). Поддерживает мультимодальный вход (текст, изображения, аудио, видео) и контекст 1M токенов.
Чем Flash-Lite отличается от Gemini 3 Flash и Pro?
Flash-Lite — самый быстрый и дешёвый тир, оптимизированный под throughput и низкую задержку, но с меньшим «потолком» качества. Flash — баланс скорости и интеллекта, Pro — максимальные рассуждения и сложные задачи. Берите Flash-Lite для массовых и латентно-чувствительных задач, Flash/Pro — для сложного мышления.
Сколько стоит Gemini 3.1 Flash-Lite?
Через API — $0.25 за 1M входных токенов и $1.50 за 1M выходных, самый бюджетный вариант в линейке Gemini 3 (примерно вдвое дешевле Gemini 3 Flash). В приложении Gemini есть бесплатный доступ к Flash-моделям с лимитами. Нюанс: относительно Flash-Lite прошлого поколения цена выросла примерно втрое.
Какой контекст и модальности у Flash-Lite?
Контекстное окно — 1 млн токенов, вывод до ~66K за запрос. Вход мультимодальный: текст, изображения, аудио и видео; выход — текст. Несмотря на класс «Lite», на мультимодальных бенчмарках (MMMU-Pro ~77%) модель показывает результаты выше ряда более крупных моделей.
Работает ли Gemini 3.1 Flash-Lite в России?
Напрямую — нет: приложение Gemini и Google AI Studio заблокированы для российских IP, российские карты не принимаются. Нужен VPN с зарубежной картой либо доступ через посредников с рублёвой оплатой. Русский язык модель понимает хорошо. Альтернативы, работающие в РФ напрямую, — YandexGPT и GigaChat.
Для чего лучше всего использовать Flash-Lite?
Для задач, где важны скорость и стоимость, а не максимум рассуждений: классификация, извлечение данных, лёгкие агенты, автодополнение, высоконагруженные чат-боты, массовая обработка документов и медиа. Высокая пропускная способность и низкая цена делают её удобной для продакшна с большим объёмом запросов.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно