Введение
Современное искусственное интеллектуальное создание изображений берет свое начало в прорывах в области глубокого обучения в середине 2010-х годов. Примерно с 2014 года исследователи начали разрабатывать нейронные сети, которые генерируют совершенно новые изображения, а не просто распознают их. Ранние глубокие генеративные модели могли производить только крошечные, размытые результаты, но быстрые достижения вскоре привели к появлению фотореалистичных изображений с высоким разрешением по запросу.
В этой статье прослеживается академическая история генерации изображений с помощью ИИ в эпоху глубокого обучения — от появления генеративных состязательных сетей (GAN) в 2014 году до современных мощных диффузионных моделей, которые могут рисовать изображения по простому текстовому запросу. По ходу статьи мы увидим, как качество моделей, разрешение, семантический контроль и доступность значительно улучшились, положив начало революции в области творческого ИИ.
GAN: генеративные состязательные сети дают старт революции (2014)
- Введены Ианом Гудфеллоу и др. в 2014 году.
- Генератор и дискриминатор в состязательном цикле обучения.
- Первые модели создавали изображения с низким разрешением (например, 32x32).
- DCGAN (2015) представила сверточные архитектуры.
- Progressive GAN (2017) позволила синтезировать изображения с высоким разрешением (1024×1024).
- BigGAN (2018): GAN с условиями по классам, обученные на ImageNet.
- Основные ограничения: коллапс режима, нестабильность обучения.
VAE и авторегрессионные модели на уровне пикселей (2014–2016)
- Вариационные автокодировщики (VAE) по Kingma & Welling (2013): вероятностное латентное пространство + прием перепараметризации.
- Плюсы: стабильное обучение, интерпретируемое латентное пространство.
- Минусы: размытые изображения на выходе.
- PixelRNN / PixelCNN (2016): авторегрессионное моделирование пикселей.
- Чрезвычайно медленное генерирование, но хорошая оценка плотности.
StyleGAN и усовершенствования GAN (2017–2019)
- StyleGAN от Karras et al. (2018–2019):
- Промежуточное латентное пространство + контроль стиля по слоям.
- Неконтролируемое разделение семантических атрибутов (например, поза, улыбка).
- Высокофотореалистичный синтез лиц 1024×1024.
- StyleGAN2 (2020): улучшенное качество изображения и стабильность обучения.
- Другие инновации: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE и трансформеры (2017–2021)
- VQ-VAE (2017): изображение → дискретные токены через кодовую книгу.
- Позволяет использовать трансформеры для моделирования последовательностей изображений.
- VQ-VAE-2 (2019): иерархические многомасштабные латентные переменные.
- Image GPT (2020): авторегрессионные трансформеры на последовательностях пикселей.
- DALL·E (2021) от OpenAI:
- трансформатор в стиле GPT над текстовыми + графическими токенами.
- генерирует изображения 256×256 из подсказок на естественном языке.
VQ-GAN: сочетание трансформеров и состязательного обучения (2021)
- VQ-GAN (2021): сочетает в себе VQ-VAE + GAN loss.
- Декодер выдает более четкие изображения, чем обычный VQ-VAE.
- Используется в конвейерах генерации под управлением CLIP.
Диффузионные модели выходят на первое место (2020–2022)
- DDPM (Ho et al., 2020): вероятностные модели диффузии с шумоподавлением.
- Начните с шума → постепенно устраняйте шум.
- Высокая точность изображения, отсутствие нестабильности при противоборческом обучении.
- Диффузия под управлением классификатора и улучшенные архитектуры (Nichol & Dhariwal, 2021).
- Более стабильные и разнообразные результаты, чем у GAN.
Бум генерации текста в изображение (2021–2022)
DALL·E 2 (2022)
- Генерация на основе диффузии + руководство CLIP.
- Разрешение 1024×1024, ретуширование, вариации подсказок.
- Значительный скачок в фотореализме и семантическом контроле.
Google Imagen (2022)
- Использует языковую модель T5 для лучшего понимания текста.
- Архитектура модели латентной диффузии.
- Лидирует в рейтингах предпочтений пользователей.
Midjourney (2022–)
— Независимая исследовательская лаборатория. — Художественно стилизованные поколения, очень популярные в творческих индустриях.
Stable Diffusion (2022)
— модель скрытого рассеяния с открытым исходным кодом от CompVis + Stability AI. — работает на потребительских графических процессорах (~2,4 ГБ VRAM). — демократичный доступ к высококачественному преобразованию текста в изображение.
Основные тенденции и достижения
Качество изображения и разрешение
- От размытых пятен 32×32 (2014) → фотореалистичность 1024×1024 (2022).
- GAN: первый значительный скачок в точности воспроизведения.
- Диффузионные модели: лучшее разнообразие + четкость.
Семантический контроль
- GAN: редактирование латентного пространства и метки классов.
- DALL·E/Imagen: полное кондиционирование текстовых подсказок.
- Восстановление, редактирование и генерация композиций.
Доступность
— от использования только в лабораториях до глобального применения: — инструменты с открытым исходным кодом (например, Stable Diffusion). — веб-приложения и API. — создатели и непрограммисты теперь активно используют генеративный ИИ.
Заключение
От GAN в 2014 году до открытого исходного кода для преобразования текста в изображение в 2022 году, генерация изображений с помощью ИИ превратилась из академической курьезы в повсеместно используемый творческий инструмент. Эта область развивалась следующим образом:
- Реализм на основе GAN,
- Семантическое понимание на основе трансформера,
- Диффузионные модели, обеспечивающие беспрецедентное качество изображения и контроль.
Будущие направления включают генерацию видео, создание 3D-ресурсов и более тесную интеграцию с языковыми и мультимодальными системами. Темпы инноваций позволяют предположить, что следующее поколение визуального ИИ будет еще более иммерсивным, интерактивным и доступным.
