PixArt-Alpha
Открытая DiT-модель генерации изображений от Huawei Noah's Ark Lab (октябрь 2023, ICLR 2024 Spotlight): 0.6B параметров, обучение всего за ~10% стоимости Stable Diffusion 1.5. Одна из первых text-to-image на Diffusion Transformer — предтеча архитектуры SD3 и FLUX. Развитие остановлено в 2024 (преемники — PixArt-Sigma и Sana).
Рейтинг и бенчмарки
Входные и выходные данные
Способы доступа
Сценарии использования
Тарифы и подписки — PixArt
Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен
- Веса на Hugging Face, код на GitHub (Apache 2.0)
- Запуск через diffusers / ComfyUI / Gradio-демо
- От 8 ГБ VRAM (δ-вариант — меньше 8 ГБ)
- PixArt-δ: LCM (4 шага) + ControlNet
Плюсы и минусы
Подробный обзор
Что такое PixArt-Alpha
PixArt-α — открытая модель генерации изображений из текста, представленная Huawei Noah's Ark Lab с академическими партнёрами в октябре 2023 года и принятая на ICLR 2024 со статусом Spotlight. Это одна из первых публичных text-to-image моделей на архитектуре Diffusion Transformer (DiT) — вместо U-Net, на котором строились Stable Diffusion того времени. Исторически это важная работа: волна DiT-архитектур, к которой принадлежат Stable Diffusion 3 и FLUX, началась именно с таких моделей.
Главная фишка — цена обучения
PixArt-α доказала, что качественную text-to-image модель можно обучить на порядок дешевле, чем считалось: ~675 A100 GPU-дней — всего 10.8% от стоимости обучения Stable Diffusion 1.5 (примерно $26-28 тыс. против ~$320 тыс.). Достигнуто это декомпозицией обучения на три этапа (пиксельные зависимости → text-image выравнивание → эстетика) и плотными синтетическими подписями к картинкам. При этом модель компактна — 0.6B параметров против 2.6B у SDXL — и генерирует до 1024×1024.
В январе 2024 вышел вариант PixArt-δ с LCM-ускорением (генерация за 4 шага вместо 20+) и поддержкой ControlNet — он работает менее чем на 8 ГБ VRAM, что сделало модель доступной на потребительских видеокартах.
Статус в 2026 году
Проект больше не развивается: последняя заметная активность в репозитории — апрель 2024 (релиз PixArt-Σ). Ключевые авторы (Энцэ Се, Цзюньсун Чэнь) продолжили линию в Sana — линейном DiT от NVIDIA. Для практической генерации в 2026 году обычно берут FLUX, Stable Diffusion 3.5 или Qwen-Image; PixArt-α остаётся интересной для исследований, обучения и экспериментов на слабом железе — это самый дешёвый способ потрогать «чистый» DiT руками. Прямой преемник в семействе — PixArt-Sigma с генерацией до 4K.
Доступность в России
Модель работает в России без ограничений — это открытые веса для локального запуска: скачиваете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете через diffusers или ComfyUI. Никаких аккаунтов, карт и подписок не требуется. Промпты лучше писать на английском — T5-энкодер слабо понимает русский. Из облачных русскоязычных альтернатив — Kandinsky от Сбера и Шедеврум от Яндекса.