PixArt-Sigma
Финальная модель открытого семейства PixArt (апрель 2024): DiT на 0.6B параметров с прямой генерацией до 4K через KV-сжатие токенов. Обходила SDXL (2.6B) по качеству при размере в 4 раза меньше. Лучший выбор семейства для слабых GPU; дальше линия ушла в Sana (NVIDIA).
Рейтинг и бенчмарки
Входные и выходные данные
Способы доступа
Сценарии использования
Тарифы и подписки — PixArt
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Чекпойнты 256/512/1024/2K на Hugging Face (код Apache 2.0)
- Запуск через diffusers / ComfyUI
- LoRA-файнтюнинг из коробки
- Прямая генерация вплоть до 4K
Плюсы и минусы
Подробный обзор
Что такое PixArt-Sigma
PixArt-Σ — вторая и финальная модель открытого семейства PixArt от Huawei Noah's Ark Lab, выпущенная в апреле 2024 года. Это Diffusion Transformer всего на 0.6B параметров, который первым среди открытых моделей научился генерировать изображения напрямую в 4K — без каскадов и апскейлеров. Для сравнения: SDXL несёт 2.6B параметров, SD Cascade — 5.1B, а по пользовательским оценкам и следованию промпту Sigma их обходила.
Как 0.6B генерирует 4K
- Weak-to-strong training — модель не учили с нуля: взяли «слабую» PixArt-α и дообучили на данных более высокого качества с более точными и плотными подписями. Дёшево и эффективно
- KV-сжатие токенов — новый attention-модуль сжимает ключи и значения для дальних областей картинки; без этого 4K-изображение в трансформере не помещалось бы в память
- Чекпойнты на все разрешения — 256, 512, 1024 и 2K опубликованы на Hugging Face, есть LoRA-код для файнтюнинга
Практический смысл: генерация высокого разрешения на потребительской видеокарте. Модель интегрирована в diffusers и поддерживается в ComfyUI.
Статус в 2026 году
Sigma стала последней моделью семейства: после апреля 2024 репозиторий не развивается, ключевые авторы (Энцэ Се, Цзюньсун Чэнь) ушли в NVIDIA делать Sana — линейный DiT, прямое архитектурное продолжение этой работы. Для продакшн-качества в 2026 берут FLUX, Stable Diffusion 3.5 или Qwen-Image, но у Sigma осталась честная ниша: лучшее качество на ватт среди «лёгкой классики» — когда нужен локальный text-to-image на слабом GPU, файнтюнинг-эксперименты или учебное погружение в DiT-архитектуру.
Доступность в России
Модель работает в России без ограничений — открытые веса для локального запуска: скачиваете чекпойнты с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете через diffusers или ComfyUI. Аккаунты, зарубежные карты и подписки не нужны. Промпты лучше писать на английском — T5-энкодер русский понимает слабо. Облачные русскоязычные альтернативы — Kandinsky от Сбера и Шедеврум от Яндекса.