PixArt-Alpha

PixArt-Alpha

Открытая DiT-модель генерации изображений от Huawei Noah's Ark Lab (октябрь 2023, ICLR 2024 Spotlight): 0.6B параметров, обучение всего за ~10% стоимости Stable Diffusion 1.5. Одна из первых text-to-image на Diffusion Transformer — предтеча архитектуры SD3 и FLUX. Развитие остановлено в 2024 (преемники — PixArt-Sigma и Sana).

Бесплатно (open source, Apache-2.0)Работает в РФ
5.4/10📅 2023-10🏢 PixArt✓ Open Source

Рейтинг и бенчмарки

Общий рейтинг
5.4/10
Benchmark Score
5.5/10
Скорость
8/10
Параметры
0.6B (vs 2.6B у SDXL)
Обучение
~675 A100 GPU-дней — 10.8% от SD 1.5 (~$26-28K vs ~$320K)
Разрешение
до 1024×1024
Статус
развитие остановлено в 2024

Входные и выходные данные

Входные данные
текст
Выходные данные
изображение

Способы доступа

Self-hosted (diffusersComfyUI)Hugging Face

Сценарии использования

локальная генерация изображенийисследования DiT-архитектурфайнтюнинг на слабых GPUиллюстрации

Тарифы и подписки — PixArt

Актуальные планы подписки провайдера. Цены могут меняться — уточняйте на странице цен

Open source (self-hosted)
Бесплатно
  • Веса на Hugging Face, код на GitHub (Apache 2.0)
  • Запуск через diffusers / ComfyUI / Gradio-демо
  • От 8 ГБ VRAM (δ-вариант — меньше 8 ГБ)
  • PixArt-δ: LCM (4 шага) + ControlNet
Российские карты не принимаются.Genova-ai — работает в РФ без VPN

Плюсы и минусы

✓ Плюсы
Одна из первых открытых text-to-image на Diffusion Transformer — архитектурная предтеча Stable Diffusion 3 и FLUX
Рекордно дешёвое обучение для своего времени: ~675 A100 GPU-дней — 10.8% стоимости Stable Diffusion 1.5 (~$26-28 тыс. против ~$320 тыс.)
Компактные 0.6B параметров — инференс от 8 ГБ VRAM через diffusers (с оптимизациями — меньше)
Вариант PixArt-δ: LCM-ускорение (генерация за 4 шага) и ControlNet — работает менее чем на 8 ГБ VRAM
Лицензия Apache 2.0 на код, полная воспроизводимость: датасет-методология и тренировочный код опубликованы
Принята на ICLR 2024 (Spotlight) — заметная академическая работа, продолжившаяся в Sana
✗ Минусы
Развитие остановлено: последняя активность репозитория — апрель 2024, команда ушла делать Sana (NVIDIA)
Качество уступает современным открытым моделям 2025-2026 (FLUX, Stable Diffusion 3.5, Qwen-Image)
T5-XXL энкодер слабо понимает русский — промпты лучше писать на английском
Текст на изображениях рисует плохо — это умеют только модели следующих поколений
Нет официального облачного API — только самостоятельный запуск
Веса на Hugging Face помечены как research-назначение — для коммерческого продакшна проверяйте условия

Подробный обзор

Что такое PixArt-Alpha

PixArt-α — открытая модель генерации изображений из текста, представленная Huawei Noah's Ark Lab с академическими партнёрами в октябре 2023 года и принятая на ICLR 2024 со статусом Spotlight. Это одна из первых публичных text-to-image моделей на архитектуре Diffusion Transformer (DiT) — вместо U-Net, на котором строились Stable Diffusion того времени. Исторически это важная работа: волна DiT-архитектур, к которой принадлежат Stable Diffusion 3 и FLUX, началась именно с таких моделей.

Главная фишка — цена обучения

PixArt-α доказала, что качественную text-to-image модель можно обучить на порядок дешевле, чем считалось: ~675 A100 GPU-дней — всего 10.8% от стоимости обучения Stable Diffusion 1.5 (примерно $26-28 тыс. против ~$320 тыс.). Достигнуто это декомпозицией обучения на три этапа (пиксельные зависимости → text-image выравнивание → эстетика) и плотными синтетическими подписями к картинкам. При этом модель компактна — 0.6B параметров против 2.6B у SDXL — и генерирует до 1024×1024.

В январе 2024 вышел вариант PixArt-δ с LCM-ускорением (генерация за 4 шага вместо 20+) и поддержкой ControlNet — он работает менее чем на 8 ГБ VRAM, что сделало модель доступной на потребительских видеокартах.

Статус в 2026 году

Проект больше не развивается: последняя заметная активность в репозитории — апрель 2024 (релиз PixArt-Σ). Ключевые авторы (Энцэ Се, Цзюньсун Чэнь) продолжили линию в Sana — линейном DiT от NVIDIA. Для практической генерации в 2026 году обычно берут FLUX, Stable Diffusion 3.5 или Qwen-Image; PixArt-α остаётся интересной для исследований, обучения и экспериментов на слабом железе — это самый дешёвый способ потрогать «чистый» DiT руками. Прямой преемник в семействе — PixArt-Sigma с генерацией до 4K.

Доступность в России

Модель работает в России без ограничений — это открытые веса для локального запуска: скачиваете с Hugging Face (доступен из РФ, иногда нужен VPN для стабильности) и запускаете через diffusers или ComfyUI. Никаких аккаунтов, карт и подписок не требуется. Промпты лучше писать на английском — T5-энкодер слабо понимает русский. Из облачных русскоязычных альтернатив — Kandinsky от Сбера и Шедеврум от Яндекса.

Часто задаваемые вопросы

Что такое PixArt-Alpha и чем она была важна?
Открытая text-to-image модель от Huawei Noah's Ark Lab (октябрь 2023, ICLR 2024 Spotlight) — одна из первых публичных моделей на архитектуре Diffusion Transformer вместо U-Net. Доказала, что обучение может стоить на порядок дешевле: ~10.8% от стоимости Stable Diffusion 1.5. Волна DiT-моделей (SD3, FLUX) началась с таких работ.
PixArt-Alpha ещё развивается?
Нет. Последняя заметная активность репозитория — апрель 2024 года (релиз преемницы PixArt-Σ). Ключевые авторы продолжили архитектурную линию в Sana — линейном Diffusion Transformer от NVIDIA. Модель остаётся доступной и рабочей, но новых версий не будет.
Какие требования к железу?
Через библиотеку diffusers — от 8 ГБ VRAM (с оптимизациями меньше), у модели всего 0.6B параметров. Вариант PixArt-δ с LCM-ускорением генерирует за 4 шага и работает менее чем на 8 ГБ — подходит для потребительских видеокарт.
Можно ли использовать PixArt-Alpha бесплатно и в коммерции?
Скачивание и запуск бесплатны: код под Apache 2.0, веса на Hugging Face. Нюанс: веса в репозитории помечены как research-назначение — для коммерческого продакшна стоит проверить актуальные условия на странице модели. Для бизнес-задач в 2026 чаще берут FLUX или Stable Diffusion 3.5 с явными коммерческими лицензиями.
Работает ли PixArt-Alpha в России?
Да, без ограничений — это локальная open-source модель: скачиваете веса с Hugging Face и запускаете у себя через diffusers или ComfyUI. Аккаунты, зарубежные карты и VPN для самой генерации не нужны. Промпты лучше писать на английском.
Чем PixArt-Alpha отличается от PixArt-Sigma?
Sigma — прямой преемник (апрель 2024): обучена методом weak-to-strong поверх Alpha, генерирует до 4K (Alpha — до 1024×1024), лучше следует промпту за счёт более точных подписей в обучающих данных, при тех же компактных 0.6B параметров. Если выбираете из двух — берите Sigma.
Что взять вместо PixArt-Alpha в 2026 году?
Для качества — FLUX или Stable Diffusion 3.5 (обе open-source, тоже DiT-архитектуры). Для скорости на слабом железе — Sana от NVIDIA (линейный DiT от тех же авторов). Внутри семейства — PixArt-Sigma. Из работающих в России облачных сервисов — Kandinsky и Шедеврум.

Все эти инструменты — уже на Genova-ai

Картинки, видео, музыка, голос и ИИ-чат в одном месте. Без VPN и зарубежных карт.

Картинки
Видео
Музыка
Голос
ИИ-чат
Попробовать бесплатно