Chameleon
Исследовательская мультимодальная модель Meta FAIR (май 2024) с принципиально новой early-fusion архитектурой: текст и изображения обрабатываются как единые токены в одном трансформере, без отдельных энкодеров. Открытые веса (7B и 34B) для исследователей. Не продуктовая модель, а научная веха.
Рейтинг и бенчмарки
Входные и выходные данные
Способы доступа
Сценарии использования
Тарифы и подписки — Meta
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Веса на HuggingFace: facebook/chameleon-7b и chameleon-30b
- Chameleon Research License — только некоммерческие исследования
- Запуск через transformers / собственный пайплайн
- Генерация изображений отключена (только text-out)
- Дообучение под научные задачи
Плюсы и минусы
Подробный обзор
Что такое Meta Chameleon
Chameleon — семейство мультимодальных моделей от Meta FAIR (исследовательское подразделение Meta), представленное в научной статье 16 мая 2024 года. Это не продуктовая модель, а научная веха: Chameleon показал принципиально новый подход к мультимодальности — early fusion (раннее слияние). Вместо отдельных энкодеров для текста и изображений модель обрабатывает и то, и другое как единые токены в одном трансформере: изображения квантуются в дискретные токены, аналогично словам, и одна и та же архитектура работает с перемешанными последовательностями текста и картинок.
Почему early-fusion — это важно
До Chameleon большинство мультимодальных моделей использовали late fusion: отдельная нейросеть-энкодер обрабатывала изображение, отдельная — текст, а результаты склеивались. Chameleon отказался от этого: текст и изображение с самого начала — это просто токены в общей последовательности. Такой унифицированный подход позволяет модели рассуждать о перемешанных текстово-визуальных данных нативно и лёг в основу более поздних мультимодальных моделей индустрии. Это был один из самых влиятельных архитектурных вкладов 2024 года.
Модели и производительность
Meta выпустила два варианта: Chameleon-7B (обучен на 1024 GPU) и Chameleon-34B (3072 GPU). Результаты для исследовательской модели сильные:
- 34B превзошёл Llama-2 70B на 5 из 8 задач рассуждения и понимания текста
- GSM8K 61.4% — математические задачи
- В image captioning обошёл более крупные Flamingo 80B и IDEFICS на MS-COCO и Flickr30k всего с двумя примерами в промпте
Важные ограничения
Несколько ключевых моментов, которые надо понимать перед использованием. Во-первых, это исследовательская модель — нет чата, API или продукта, только открытые веса для self-host. Во-вторых, лицензия — Chameleon Research License: разрешено только некоммерческое исследовательское использование, не для бизнеса (в отличие от Apache/MIT). В-третьих, генерация изображений в публичных весах отключена Meta из соображений безопасности — хотя архитектурно модель умеет выдавать картинки, в открытом релизе на выходе только текст. Контекст всего 4096 токенов.
Состояние на 2026 и доступность в России
По меркам 2026 года Chameleon устарел как рабочий инструмент — современные мультимодальные модели (Llama 4, Qwen-VL, Gemini 3.1 Pro, GPT-5.x) кратно сильнее и умеют генерировать изображения. Но архитектурная идея early-fusion остаётся фундаментальной, поэтому Chameleon ценен как учебный и исследовательский объект. Веса не блокируются для России — свободно скачиваются с HuggingFace (репозиторий facebook/chameleon-7b). Русский язык модель не поддерживает — обучена на английском. Для запуска 34B нужна серверная GPU-конфигурация, 7B легче.