人工智慧圖像生成之深度學習時代(2014年至今)

Sep 29, 2025

引言

當代人工智慧圖像生成技術的根源,可追溯至2010年代中期深度學習領域的突破性進展。自2014年前後起,研究人員開始開發能生成全新圖像的神經網路,而非僅限於圖像辨識。早期深度生成模型僅能產出微小模糊的輸出成果,但隨著技術飛速發展,如今已能隨需生成逼真寫實的高解析度圖像。

本文追溯了深度學習時代人工智慧圖像生成的學術發展歷程——從2014年生成對抗網路(GANs)的誕生,到當今能憑藉簡單文字提示繪製圖像的強大擴散模型。在此過程中,我們將見證模型品質、解析度、語義控制與易用性如何取得飛躍性進步,從而引領創意人工智慧領域的革命性變革。

GANs:生成對抗網路引爆革命(2014)

  • 由伊恩·古德費洛等人於2014年提出。
  • 生成器與判別器構成對抗訓練迴路。
  • 初代模型僅能生成低解析度圖像(如32x32)。
  • DCGAN(2015)引入卷積架構。
  • 漸進式GAN(2017)實現高解析度圖像合成(1024×1024)。
  • BigGAN(2018):基於ImageNet訓練的類別條件式GAN。
  • 關鍵限制:模式坍縮、訓練不穩定性。

變分自編碼器與像素級自回歸模型(2014–2016)

  • 變分自編碼器(VAEs)(Kingma & Welling, 2013):機率隱含空間 + 重參數化技巧。
  • 優點:訓練穩定、潛在空間可解釋。
  • 缺點:輸出影像模糊。
  • 像素RNN / 像素CNN (2016):自迴歸像素建模。
  • 生成速度極慢但密度估計表現優異。

StyleGAN 與 GAN 精進研究(2017–2019)

  • Karras 等人(2018–2019)提出的 StyleGAN
  • 中間潛在空間 + 逐層風格控制。
  • 語義屬性(如姿勢、笑容)的無監督分離。
  • 高度逼真的 1024×1024 臉部合成。
  • StyleGAN2 (2020):提升圖像品質與訓練穩定性。
  • 其他創新:Wasserstein GAN (WGAN)WGAN-GP

VQ-VAE 與 Transformer 模型(2017–2021)

  • VQ-VAE(2017):透過編碼本將圖像轉換為離散標記。
  • 允許使用 Transformer 模型建構圖像序列。
  • VQ-VAE-2 (2019):分層多尺度潛變量。
  • 圖像GPT (2020):基於像素序列的自回歸變壓器。
  • OpenAI開發的DALL·E (2021)
  • 基於文本與圖像代碼的GPT式變換器。
  • 從自然語言提示生成256×256像素圖像。

VQ-GAN:融合變換器與對抗性學習(2021)

  • VQ-GAN(2021):結合向量化變換自編織器(VQ-VAE)與生成對抗網路(GAN)損失函數。
  • 解碼器產出比基礎版VQ-VAE更銳利的圖像。
  • 應用於CLIP引導的生成管道。

擴散模型領先(2020–2022)

  • DDPM(Ho 等人, 2020):去噪擴散機率模型。
  • 從噪聲開始 → 逐步去噪。
  • 具備高影像保真度,無對抗訓練不穩定性。
  • 分類器引導擴散與改良架構(Nichol & Dhariwal, 2021)。
  • 相較於GAN,輸出更穩定且具多樣性。

文字轉圖像生成技術的爆發期(2021–2022)

DALL·E 2 (2022)

  • 擴散模型生成 + CLIP 提示引導。
  • 1024×1024 解析度,支援補畫功能與提示變體。
  • 寫實度與語義控制能力實現重大飛躍。

Google Imagen (2022)

  • 採用 T5 語言模型以提升文字理解能力。
  • 潛在擴散模型架構。
  • 於人類偏好基準測試中名列前茅。

Midjourney (2022–)

  • 獨立研究實驗室。
  • 以藝術風格化生成圖像,在創意產業中廣受歡迎。

穩定擴散模型 (2022)

  • 由CompVis與Stability AI共同開發的開源潛在擴散模型。
  • 可在消費級GPU上運行(約2.4GB顯存)。
  • 實現高品質文字轉圖像生成的普及化應用。

關鍵趨勢與進展

影像品質與解析度

  • 從32×32模糊斑點(2014年)→ 1024×1024照片級寫實效果(2022年)。
  • GANs:忠實度首次重大飛躍。
  • 擴散模型:提升多樣性與銳利度。

語義控制

  • GANs:潛在空間編輯與類別標籤。
  • DALL·E/Imagen:完整文字提示條件化。
  • 補畫、編輯與組合式生成。

可用性

  • 從實驗室專用到全球應用:
  • 開源工具(例如 Stable Diffusion)。
  • 網頁應用程式與 API。
  • 創作者與非程式設計師現正積極運用生成式人工智慧。

結論

從2014年的生成對抗網路(GANs),到2022年開源的文字轉圖像擴散模型,人工智慧圖像生成技術已從學術界的奇觀蛻變為無所不在的創意工具。此領域的發展歷程可歸納為:

  • 基於生成對抗網路的寫實表現,
  • 變壓器驅動的語義理解,
  • 擴散模型實現前所未有的影像品質與控制能力。

未來發展方向包括影片生成、3D資產創作,以及與語言及多模態系統的更緊密整合。創新步伐顯示,下一代視覺人工智慧將具備更強的沉浸感、互動性與普及性。