Gemini 3.1 Flash-Lite

Name: Gemini 3.1 Flash-Lite
Author: Google DeepMind

Самая быстрая и дешёвая модель в линейке Gemini 3 от Google (превью — 3 марта 2026, GA — 7 мая): около 380 токенов/сек, контекст 1M, мультимодальный вход (текст, изображения, аудио, видео). Цена $0.25/$1.50 за 1M токенов — под высоконагруженные и латентно-чувствительные задачи. Сильна в мультимодальности для своего класса.

API $0.25 / $1.50 за 1M токенов; в приложении Gemini есть бесплатный доступНужен VPNРусский язык

⭐ 8.2/10📅 2026-03-03🏢 Google DeepMindProprietary

Открыть сайтЧерез Genova-ai (без VPN)

Рейтинг и бенчмарки

Общий рейтинг

8.2/10

Benchmark Score

7.6/10

Скорость

9.5/10

Скорость

~380 токенов/сек — один из самых быстрых среди закрытых моделей

Цена

$0.25 / $1.50 за 1M — дешевле всех в линейке Gemini 3

Контекст

1M (вывод до ~66K)

GPQA Diamond

86.9%

MMMU-Pro

~77% — обходит более крупные модели на мультимодальности

Входные и выходные данные

Входные данные

текстизображениеаудиовидео

Выходные данные

текст

API и стоимость

Входные токены (Input)

API $0.25 / $1.50 за 1M токенов; в приложении Gemini есть бесплатный доступ

цена за промпт

Выходные токены (Output)

$1.50 / 1M токенов

цена за ответ

✓API доступен

Документация API →

Способы доступа

API (Google AI Studio)Google Cloud (Vertex AI)приложение Gemini

Сценарии использования

высоконагруженные и латентно-чувствительные задачиклассификация и извлечение данныхлёгкие агентымассовая обработкамультимодальный анализ

Тарифы и подписки — Google DeepMind

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Приложение Gemini (Free)

Бесплатно

Доступ к Flash-моделям с дневными лимитами
Веб и мобильные приложения
Мультимодальные запросы

Популярный

Google AI Pro

$20/мес

Повышенные лимиты и приоритет
Доступ к старшим моделям Gemini 3
Интеграция с Google Workspace

API (pay-as-you-go)

$0.25 / $1.50 за 1M

Вход $0.25, выход $1.50 за 1M токенов
Контекст 1M, вывод до ~66K
Google AI Studio и Vertex AI
Кеширование контекста и batch для экономии

Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы

Один из самых быстрых на рынке: около 380 токенов/сек — почти мгновенные ответы для интерактива и массовой обработки

Самая дешёвая в линейке Gemini 3: $0.25/$1.50 за 1M — вдвое дешевле Gemini 3 Flash и в разы дешевле 3.5 Flash

Мультимодальный вход — текст, изображения, аудио и видео в одном запросе

Контекст 1M токенов при минимальной цене — большие документы и длинные диалоги дёшево

Сильна в мультимодальности для своего класса: ~77% на MMMU-Pro, обходит и более крупные модели

Хорошо понимает и генерирует русский язык

✗ Минусы

Не работает в России без VPN — приложение Gemini и Google AI Studio недоступны для российских IP

Российские карты не принимаются — оплата API и подписки только зарубежной картой

Это «облегчённая» модель: на сложных рассуждениях уступает Gemini 3.x Pro и топ-флагманам

Подорожала: цена примерно втрое выше предшественника прошлого поколения Flash-Lite

Проприетарная — только облако, без локального запуска и дообучения на своих данных

Часть версий идёт в статусе preview — параметры и цены ещё могут уточняться

Подробный обзор

Что такое Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite — самая быстрая и экономичная модель в линейке Gemini 3 от Google DeepMind. Превью вышло 3 марта 2026 года, GA-превью — 7 мая. В семействе Gemini 3 это «лёгкий» тир (ниже Flash и Pro), созданный под один сценарий: максимум скорости и минимум цены. По независимым замерам Artificial Analysis модель выдаёт около 380 токенов в секунду — один из самых быстрых результатов среди закрытых моделей крупных лабораторий.

Цена, скорость и контекст

$0.25 / $1.50 за 1M токенов (вход/выход) — самый дешёвый вариант в линейке Gemini 3: примерно вдвое дешевле Gemini 3 Flash и в разы дешевле 3.5 Flash
Контекст 1M токенов, вывод до ~66K — большие документы и длинные диалоги при минимальной стоимости
Мультимодальный вход — текст, изображения, аудио и видео
Несмотря на приставку «Lite», модель сильна в мультимодальности: ~77% на MMMU-Pro и 86.9% на GPQA Diamond — на этих тестах обходит и более крупные модели

Важный нюанс: по сравнению с Flash-Lite прошлого поколения модель «поумнела, но и подорожала» — цена выросла примерно втрое. Тем не менее внутри Gemini 3 это по-прежнему самый бюджетный вариант.

Кому подходит

Flash-Lite берут там, где важнее скорость и цена, чем пиковое качество рассуждений: классификация и извлечение данных, лёгкие агенты, автодополнение, чат-боты с высокой нагрузкой, массовая обработка документов и медиа. Для сложных многошаговых рассуждений лучше подойдут старшие Gemini 3.x Flash и Pro — Flash-Lite сознательно оптимизирована под throughput и низкую задержку, а не под максимальный «интеллект».

Доступность в России

Модель не работает в России без VPN — приложение Gemini (gemini.google.com) и Google AI Studio недоступны для российских IP, а российские карты для оплаты API и подписки не принимаются. Доступ возможен через VPN с зарубежной картой либо через посредников, дающих доступ к моделям Google с рублёвой оплатой. Сам по себе русский язык модель понимает и генерирует хорошо. Из работающих в России напрямую чат-моделей похожего бюджетного класса — YandexGPT и GigaChat.

Часто задаваемые вопросы

Что такое Gemini 3.1 Flash-Lite?

Самая быстрая и дешёвая модель в линейке Gemini 3 от Google (превью — 3 марта 2026, GA — 7 мая). Это «лёгкий» тир под высокую скорость (~380 токенов/сек) и минимальную цену ($0.25/$1.50 за 1M токенов). Поддерживает мультимодальный вход (текст, изображения, аудио, видео) и контекст 1M токенов.

Чем Flash-Lite отличается от Gemini 3 Flash и Pro?

Flash-Lite — самый быстрый и дешёвый тир, оптимизированный под throughput и низкую задержку, но с меньшим «потолком» качества. Flash — баланс скорости и интеллекта, Pro — максимальные рассуждения и сложные задачи. Берите Flash-Lite для массовых и латентно-чувствительных задач, Flash/Pro — для сложного мышления.

Сколько стоит Gemini 3.1 Flash-Lite?

Через API — $0.25 за 1M входных токенов и $1.50 за 1M выходных, самый бюджетный вариант в линейке Gemini 3 (примерно вдвое дешевле Gemini 3 Flash). В приложении Gemini есть бесплатный доступ к Flash-моделям с лимитами. Нюанс: относительно Flash-Lite прошлого поколения цена выросла примерно втрое.

Какой контекст и модальности у Flash-Lite?

Контекстное окно — 1 млн токенов, вывод до ~66K за запрос. Вход мультимодальный: текст, изображения, аудио и видео; выход — текст. Несмотря на класс «Lite», на мультимодальных бенчмарках (MMMU-Pro ~77%) модель показывает результаты выше ряда более крупных моделей.

Работает ли Gemini 3.1 Flash-Lite в России?

Напрямую — нет: приложение Gemini и Google AI Studio заблокированы для российских IP, российские карты не принимаются. Нужен VPN с зарубежной картой либо доступ через посредников с рублёвой оплатой. Русский язык модель понимает хорошо. Альтернативы, работающие в РФ напрямую, — YandexGPT и GigaChat.

Для чего лучше всего использовать Flash-Lite?

Для задач, где важны скорость и стоимость, а не максимум рассуждений: классификация, извлечение данных, лёгкие агенты, автодополнение, высоконагруженные чат-боты, массовая обработка документов и медиа. Высокая пропускная способность и низкая цена делают её удобной для продакшна с большим объёмом запросов.