Gemini 3.1 Flash-Lite
Самая быстрая и дешёвая модель в линейке Gemini 3 от Google (превью — 3 марта 2026, GA — 7 мая): около 380 токенов/сек, контекст 1M, мультимодальный вход (текст, изображения, аудио, видео). Цена $0.25/$1.50 за 1M токенов — под высоконагруженные и латентно-чувствительные задачи. Сильна в мультимодальности для своего класса.
Рейтинг и бенчмарки
Входные и выходные данные
API и стоимость
Способы доступа
Сценарии использования
Тарифы и подписки — Google DeepMind
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Доступ к Flash-моделям с дневными лимитами
- Веб и мобильные приложения
- Мультимодальные запросы
- Повышенные лимиты и приоритет
- Доступ к старшим моделям Gemini 3
- Интеграция с Google Workspace
- Вход $0.25, выход $1.50 за 1M токенов
- Контекст 1M, вывод до ~66K
- Google AI Studio и Vertex AI
- Кеширование контекста и batch для экономии
Плюсы и минусы
Подробный обзор
Что такое Gemini 3.1 Flash-Lite
Gemini 3.1 Flash-Lite — самая быстрая и экономичная модель в линейке Gemini 3 от Google DeepMind. Превью вышло 3 марта 2026 года, GA-превью — 7 мая. В семействе Gemini 3 это «лёгкий» тир (ниже Flash и Pro), созданный под один сценарий: максимум скорости и минимум цены. По независимым замерам Artificial Analysis модель выдаёт около 380 токенов в секунду — один из самых быстрых результатов среди закрытых моделей крупных лабораторий.
Цена, скорость и контекст
- $0.25 / $1.50 за 1M токенов (вход/выход) — самый дешёвый вариант в линейке Gemini 3: примерно вдвое дешевле Gemini 3 Flash и в разы дешевле 3.5 Flash
- Контекст 1M токенов, вывод до ~66K — большие документы и длинные диалоги при минимальной стоимости
- Мультимодальный вход — текст, изображения, аудио и видео
- Несмотря на приставку «Lite», модель сильна в мультимодальности: ~77% на MMMU-Pro и 86.9% на GPQA Diamond — на этих тестах обходит и более крупные модели
Важный нюанс: по сравнению с Flash-Lite прошлого поколения модель «поумнела, но и подорожала» — цена выросла примерно втрое. Тем не менее внутри Gemini 3 это по-прежнему самый бюджетный вариант.
Кому подходит
Flash-Lite берут там, где важнее скорость и цена, чем пиковое качество рассуждений: классификация и извлечение данных, лёгкие агенты, автодополнение, чат-боты с высокой нагрузкой, массовая обработка документов и медиа. Для сложных многошаговых рассуждений лучше подойдут старшие Gemini 3.x Flash и Pro — Flash-Lite сознательно оптимизирована под throughput и низкую задержку, а не под максимальный «интеллект».
Доступность в России
Модель не работает в России без VPN — приложение Gemini (gemini.google.com) и Google AI Studio недоступны для российских IP, а российские карты для оплаты API и подписки не принимаются. Доступ возможен через VPN с зарубежной картой либо через посредников, дающих доступ к моделям Google с рублёвой оплатой. Сам по себе русский язык модель понимает и генерирует хорошо. Из работающих в России напрямую чат-моделей похожего бюджетного класса — YandexGPT и GigaChat.