引言
现代人工智能图像生成技术可追溯至2010年代中期深度学习领域的重大突破。自2014年前后起,研究人员开始开发能够生成全新图像而非仅识别图像的神经网络。早期深度生成模型仅能输出微小模糊的图像,但随着技术飞速发展,如今已能按需生成逼真逼真的高分辨率图像。
本文追溯了深度学习时代人工智能图像生成的学术发展历程——从2014年生成对抗网络(GANs)的诞生,到如今仅凭简单文本提示就能绘制图像的强大扩散模型。在此过程中,我们将见证模型质量、分辨率、语义控制与易用性如何实现飞跃性提升,从而开启了创意人工智能的革命。
GANs:生成对抗网络开启革命(2014)
- 由Ian Goodfellow 等人于2014年提出。
- 生成器与鉴别器构成对抗训练循环。
- 初代模型仅能生成低分辨率图像(如32×32)。
- DCGAN(2015)引入卷积架构。
- 渐进式GAN(2017)实现高分辨率图像合成(1024×1024)。
- BigGAN(2018):基于ImageNet训练的类条件GAN。
- 关键局限:模式坍缩、训练不稳定性。
变分自编码器与像素级自回归模型(2014–2016)
- 变分自编码器(VAEs)(Kingma & Welling, 2013):概率隐空间 + 重参数化技巧。
- 优点:训练稳定,潜在空间可解释。
- 缺点:图像输出模糊。
- 像素RNN/像素CNN(2016):自回归像素建模。
- 生成功率极低但密度估计效果良好。
StyleGAN与GAN改进(2017–2019)
- Karras 等人(2018–2019)提出的StyleGAN:
- 中间潜在空间 + 逐层风格控制。
- 无监督语义属性分离(如姿势、笑容)。
- 高保真1024×1024人脸合成。
- StyleGAN2(2020):提升图像质量与训练稳定性。
- 其他创新:Wasserstein GAN(WGAN)、WGAN-GP。
VQ-VAE 与 Transformer 模型(2017–2021)
- VQ-VAE (2017):通过编码本将图像转换为离散令牌。
- 支持使用 Transformer 模型对图像序列进行建模。
- VQ-VAE-2 (2019):分层多尺度潜在变量。
- 图像GPT (2020):基于像素序列的自回归Transformer模型。
- OpenAI的DALL·E (2021):
- 基于文本+图像令牌的GPT式变换器。
- 通过自然语言提示生成256×256图像。
VQ-GAN:融合Transformers与对抗学习(2021)
- VQ-GAN(2021):结合VQ-VAE与GAN损失函数。
- 解码器生成的图像比基础VQ-VAE更清晰。
- 应用于CLIP引导的生成管道。
扩散模型引领风潮(2020–2022)
- DDPM(Ho 等人, 2020):去噪扩散概率模型。
- 从噪声开始 → 逐步去噪。
- 图像保真度高,无对抗训练不稳定性。
- 分类器引导扩散与改进架构(Nichol & Dhariwal, 2021)。
- 相较于GAN,输出更稳定且多样化。
文本到图像生成热潮(2021–2022)
DALL·E 2 (2022)
- 扩散模型生成 + CLIP指令引导。
- 1024×1024分辨率,支持图像修复与提示词变体。
- 在照片级逼真度与语义控制方面实现重大飞跃。
Google Imagen (2022)
- 采用T5语言模型提升文本理解能力。
- 基于潜在扩散模型架构。
- 在人类偏好基准测试中表现优于人类。
Midjourney(2022–)
- 独立研究实验室。
- 艺术风格化生成技术,在创意产业中广受欢迎。
稳定扩散(2022)
- CompVis + Stability AI 开发的开源潜在扩散模型。
- 可在消费级GPU(约2.4GB显存)上运行。
- 实现高质量文本到图像生成的普及化应用。
关键趋势与进展
图像质量与分辨率
- 从32×32像素的模糊斑点(2014年)→ 1024×1024像素的逼真效果(2022年)。
- 生成对抗网络(GANs):保真度实现首次重大飞跃。
- 扩散模型:实现更优多样性与锐度。
语义控制
- GANs:潜在空间编辑与类别标签。
- DALL·E/Imagen:全文提示条件化。
- 补画、编辑与组合生成。
可访问性
- 从实验室专属到全球应用:
- 开源工具(如Stable Diffusion)。
- 网络应用与API。
- 创作者与非程序员现已积极运用生成式人工智能。
结论
从2014年的生成对抗网络(GANs)到2022年的开源文本到图像扩散模型,人工智能图像生成技术已从学术界的奇观蜕变为无处不在的创作工具。该领域的发展历程包括:
- 基于生成对抗网络的逼真效果,
- 变压器驱动的语义理解,
- 扩散模型实现前所未有的图像质量与控制能力。
未来发展方向包括视频生成、3D资产创建,以及与语言和多模态系统的更紧密集成。创新步伐表明,下一代视觉人工智能将实现更强的沉浸感、交互性和普及性。
