Deep Learning-æraen inden for AI-billedgenerering (2014–i dag)

sep 29, 2025

Introduktion

Moderne AI-billedgenerering har sine rødder i gennembruddene inden for deep learning i midten af 2010'erne. Omkring 2014 begyndte forskere at udvikle neurale netværk, der genererer helt nye billeder i stedet for blot at genkende dem. De tidlige dybe generative modeller kunne kun producere små, slørede resultater, men hurtige fremskridt resulterede snart i fotorealistiske billeder i høj opløsning efter behov.

Denne artikel følger den akademiske historie inden for AI-billedgenerering i deep learning-æraen – fra fremkomsten af Generative Adversarial Networks (GAN) i 2014 til nutidens kraftfulde diffusionsmodeller, der kan male billeder ud fra en simpel tekstprompt. Undervejs vil vi se, hvordan modelkvalitet, opløsning, semantisk kontrol og tilgængelighed er blevet dramatisk forbedret, hvilket har indledt en revolution inden for kreativ AI.

GAN'er: Generative Adversarial Networks Kickstart a Revolution (2014)

  • Introduceret af Ian Goodfellow et al. i 2014.
  • Generator og diskriminator i adversarial træningsloop.
  • De første modeller producerede billeder i lav opløsning (f.eks. 32x32).
  • DCGAN (2015) introducerede konvolutionelle arkitekturer.
  • Progressive GAN (2017) muliggjorde syntese af billeder i høj opløsning (1024×1024).
  • BigGAN (2018): klassebetingede GAN'er trænet på ImageNet.
  • Vigtige begrænsninger: modekollaps, ustabil træning.

VAE'er og autoregressive modeller på pixelniveau (2014–2016)

  • Variational Autoencoders (VAE'er) af Kingma & Welling (2013): probabilistisk latent rum + reparameteriseringstrick.
  • Fordele: stabil træning, fortolkelig latent rum.
  • Ulemper: slørede billedoutput.
  • PixelRNN / PixelCNN (2016): autoregressiv pixelmodellering.
  • Ekstremt langsom generering, men god tæthedsvurdering.

StyleGAN og GAN-forbedringer (2017–2019)

  • StyleGAN af Karras et al. (2018–2019):
  • Mellemliggende latent rum + stilkontrol pr. lag.
  • Uovervåget adskillelse af semantiske attributter (f.eks. positur, smil).
  • Meget fotorealistisk 1024×1024 ansigtssyntese.
  • StyleGAN2 (2020): forbedret billedkvalitet og træningsstabilitet.
  • Andre innovationer: Wasserstein GAN (WGAN), WGAN-GP.

VQ-VAE og transformere (2017–2021)

  • VQ-VAE (2017): billede → diskrete tokens via kodebog.
  • Tillader brug af transformere til at modellere billedsekvenser.
  • VQ-VAE-2 (2019): hierarkiske multiskala latenter.
  • Image GPT (2020): autoregressive transformere på pixelsekvenser.
  • DALL·E (2021) af OpenAI:
  • GPT-stil transformer over tekst + billedtokens.
  • Genererer 256×256 billeder fra naturlige sprogprompter.

VQ-GAN: Kombination af transformere og adversarial learning (2021)

  • VQ-GAN (2021): kombinerer VQ-VAE + GAN-tab.
  • Dekoderen producerer skarpere billeder end almindelig VQ-VAE.
  • Anvendes i CLIP-styrede genereringspipelines.

Diffusionsmodeller tager føringen (2020–2022)

  • DDPM (Ho et al., 2020): Støjfjernende diffusionsprobabilistiske modeller.
  • Start med støj → fjern støj trin for trin.
  • Høj billedkvalitet, ingen ustabilitet ved adversarial training.
  • Klassifikatorstyret diffusion og forbedrede arkitekturer (Nichol & Dhariwal, 2021).
  • Mere stabile og varierede resultater end GAN'er.

Boom i generering af tekst til billeder (2021–2022)

DALL·E 2 (2022)

  • Diffusionsbaseret generering + CLIP-vejledning.
  • 1024×1024 opløsning, inpainting, promptvariationer.
  • Stort spring i fotorealistisk gengivelse og semantisk kontrol.

Google Imagen (2022)

  • Bruger T5-sprogsmodel for bedre tekstforståelse.
  • Latent diffusionsmodelarkitektur.
  • Overgår menneskelige præferencebenchmarks.

Midjourney (2022–)

  • Uafhængigt forskningslaboratorium.
  • Kunstnerisk stiliserede generationer, meget populære i kreative brancher.

Stable Diffusion (2022)

  • Open source latent diffusionsmodel fra CompVis + Stability AI.
  • Kører på forbruger-GPU'er (~2,4 GB VRAM).
  • Demokratiseret adgang til generering af tekst til billeder i høj kvalitet.

Vigtige tendenser og fremskridt

Billedkvalitet og opløsning

  • Fra 32×32 slørede klatter (2014) → 1024×1024 fotorealistisk (2022).
  • GAN'er: første store spring i troværdighed.
  • Diffusionsmodeller: bedre diversitet + skarphed.

Semantisk kontrol

  • GAN'er: redigeringer af latent rum og klasselabels.
  • DALL·E/Imagen: fuldtekstpromptkonditionering.
  • Inpainting, redigering og kompositorisk generering.

Tilgængelighed

  • Fra kun laboratoriebrug til global brug:
  • Open source-værktøjer (f.eks. Stable Diffusion).
  • Webapps og API'er.
  • Skabere og ikke-programmører bruger nu aktivt generativ AI.

Konklusion

Fra GAN'er i 2014 til open source-tekst-til-billede-diffusion i 2022 har AI-billedgenerering udviklet sig fra en akademisk kuriositet til et allestedsnærværende kreativt værktøj. Området har udviklet sig gennem:

  • GAN-baseret realisme,
  • Transformer-drevet semantisk forståelse,
  • Diffusionsmodeller, der muliggør en hidtil uset billedkvalitet og kontrol.

Fremtidige retninger omfatter videogenerering, oprettelse af 3D-aktiver og tættere integration med sprog- og multimodale systemer. Innovationstempoet tyder på, at den næste generation af visuel AI vil blive endnu mere fordybende, interaktiv og tilgængelig.