PixArt-Sigma

PixArt-Sigma

Финальная модель открытого семейства PixArt (апрель 2024): DiT на 0.6B параметров с прямой генерацией до 4K через KV-сжатие токенов. Обходила SDXL (2.6B) по качеству при размере в 4 раза меньше. Лучший выбор семейства для слабых GPU; дальше линия ушла в Sana (NVIDIA).

Бесплатно (open source, Apache-2.0)Работает в РФ
6/10📅 2024-04🏢 PixArt✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
6/10
Benchmark Score
6/10
Скорость
8/10
Параметры
0.6B (vs 2.6B SDXL, 5.1B SD Cascade)
Разрешение
до 4K напрямую (KV-сжатие токенов)
Метод
weak-to-strong поверх PixArt-α
Статус
финальная версия семейства (апрель 2024)

Входные и выходные данные

Входные данные
текст
Выходные данные
изображение

Способы доступа

Self-hosted (diffusersComfyUI)Hugging Face

Сценарии использования

локальная генерация до 4K на слабых GPUисследования DiTфайнтюнинг и LoRAиллюстрации

Тарифы и подписки — PixArt

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Open source (self-hosted)
Бесплатно
  • Чекпойнты 256/512/1024/2K на Hugging Face (код Apache 2.0)
  • Запуск через diffusers / ComfyUI
  • LoRA-файнтюнинг из коробки
  • Прямая генерация вплоть до 4K
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Прямая генерация до 4K — без апскейлеров, за счёт KV-сжатия токенов в attention-модуле DiT
Качество выше SDXL при размере в 4+ раза меньше: 0.6B против 2.6B (и 5.1B у SD Cascade)
Заметно лучше PixArt-α следует промпту — обучена weak-to-strong на данных с более точными подписями
Запускается на потребительских GPU — компактный DiT + интеграция в diffusers и ComfyUI, есть LoRA-код
Код Apache 2.0, чекпойнты 256/512/1024/2K на Hugging Face — полная свобода локального использования
Эталонная учебная модель «чистого» DiT: идеальна для исследований и файнтюнинг-экспериментов
✗ Минусы
Финальная версия: развитие остановлено в 2024, команда продолжила линию в Sana (NVIDIA)
Современные открытые модели 2025-2026 (FLUX, Stable Diffusion 3.5, Qwen-Image) дают качество выше
T5-XXL энкодер слабо понимает русский — промпты лучше писать на английском
Текст на изображениях практически не рисует
Нет официального облачного API — только самостоятельный запуск
Веса на Hugging Face помечены как research-назначение — для коммерческого продакшна проверяйте условия

Подробный обзор

Что такое PixArt-Sigma

PixArt-Σ — вторая и финальная модель открытого семейства PixArt от Huawei Noah's Ark Lab, выпущенная в апреле 2024 года. Это Diffusion Transformer всего на 0.6B параметров, который первым среди открытых моделей научился генерировать изображения напрямую в 4K — без каскадов и апскейлеров. Для сравнения: SDXL несёт 2.6B параметров, SD Cascade — 5.1B, а по пользовательским оценкам и следованию промпту Sigma их обходила.

Как 0.6B генерирует 4K

  • Weak-to-strong training — модель не учили с нуля: взяли «слабую» PixArt-α и дообучили на данных более высокого качества с более точными и плотными подписями. Дёшево и эффективно
  • KV-сжатие токенов — новый attention-модуль сжимает ключи и значения для дальних областей картинки; без этого 4K-изображение в трансформере не помещалось бы в память
  • Чекпойнты на все разрешения — 256, 512, 1024 и 2K опубликованы на Hugging Face, есть LoRA-код для файнтюнинга

Практический смысл: генерация высокого разрешения на потребительской видеокарте. Модель интегрирована в diffusers и поддерживается в ComfyUI.

Статус в 2026 году

Sigma стала последней моделью семейства: после апреля 2024 репозиторий не развивается, ключевые авторы (Энцэ Се, Цзюньсун Чэнь) ушли в NVIDIA делать Sana — линейный DiT, прямое архитектурное продолжение этой работы. Для продакшн-качества в 2026 берут FLUX, Stable Diffusion 3.5 или Qwen-Image, но у Sigma осталась честная ниша: лучшее качество на ватт среди «лёгкой классики» — когда нужен локальный text-to-image на слабом GPU, файнтюнинг-эксперименты или учебное погружение в DiT-архитектуру.

Доступность в России

Модель работает в России без ограничений — открытые веса для локального запуска: скачиваете чекпойнты с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете через diffusers или ComfyUI. Аккаунты, зарубежные карты и подписки не нужны. Промпты лучше писать на английском — T5-энкодер русский понимает слабо. Облачные русскоязычные альтернативы — Kandinsky от Сбера и Шедеврум от Яндекса.

Часто задаваемые вопросы

Что такое PixArt-Sigma?
Финальная модель открытого семейства PixArt от Huawei Noah's Ark Lab (апрель 2024): Diffusion Transformer на 0.6B параметров, первым среди открытых моделей генерировавший изображения напрямую до 4K. По качеству обходил SDXL (2.6B) при размере в 4+ раза меньше.
Как маленькая модель 0.6B генерирует 4K?
Два приёма: weak-to-strong training (дообучение PixArt-α на данных более высокого качества вместо обучения с нуля) и KV-сжатие токенов — attention-модуль сжимает ключи/значения дальних областей картинки, иначе 4K не поместилось бы в память трансформера.
Какие требования к железу?
Компактный DiT на 0.6B параметров запускается на потребительских GPU через diffusers или ComfyUI. На Hugging Face опубликованы чекпойнты под 256/512/1024/2K — можно выбрать под свою видеокарту. Для максимальных разрешений памяти нужно больше.
PixArt-Sigma ещё развивается?
Нет — это финальная версия семейства. После апреля 2024 репозиторий не обновляется: ключевые авторы ушли в NVIDIA и сделали Sana — линейный Diffusion Transformer, прямое продолжение этой архитектурной линии. Сама Sigma остаётся рабочей и доступной.
Работает ли PixArt-Sigma в России?
Да, без ограничений — это локальная open-source модель: чекпойнты скачиваются с Hugging Face, запуск через diffusers/ComfyUI у себя. Карты, аккаунты и VPN для генерации не нужны. Промпты лучше писать на английском.
PixArt-Sigma или PixArt-Alpha — что выбрать?
Sigma: она новее, заметно лучше следует промпту (более точные подписи в обучении), генерирует до 4K против 1024×1024 у Alpha — при тех же 0.6B параметров. Alpha интересна разве что для воспроизведения исследований или варианта δ с LCM-ускорением.
Что взять вместо PixArt-Sigma в 2026 году?
Для максимального качества — FLUX или Stable Diffusion 3.5 (открытые DiT-модели нового поколения). Для скорости на слабом железе — Sana от NVIDIA (те же авторы, линейный DiT). Из облачных сервисов, работающих в России, — Kandinsky и Шедеврум.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно