Het tijdperk van deep learning in AI-beeldgeneratie (2014–heden)

sep. 29, 2025

Inleiding

De moderne AI-beeldgeneratie vindt zijn oorsprong in de doorbraken op het gebied van deep learning halverwege de jaren 2010. Rond 2014 begonnen onderzoekers met de ontwikkeling van neurale netwerken die volledig nieuwe beelden genereren in plaats van ze alleen te herkennen. De eerste deep generatieve modellen konden alleen kleine, wazige beelden produceren, maar dankzij snelle vooruitgang konden al snel fotorealistische beelden met een hoge resolutie op verzoek worden gegenereerd.

Dit artikel beschrijft de academische geschiedenis van AI-beeldgeneratie in het tijdperk van deep learning – vanaf de komst van Generative Adversarial Networks (GAN's) in 2014 tot de krachtige diffusiemodellen van vandaag, die beelden kunnen schilderen op basis van een eenvoudige tekstprompt. Gaandeweg zien we hoe de kwaliteit, resolutie, semantische controle en toegankelijkheid van modellen drastisch zijn verbeterd, wat een revolutie in creatieve AI heeft teweeggebracht.

GAN's: Generative Adversarial Networks Kickstart a Revolution (2014)

  • Geïntroduceerd door Ian Goodfellow et al. in 2014.
  • Generator en discriminator in adversarial training loop.
  • Eerste modellen produceerden afbeeldingen met een lage resolutie (bijv. 32x32).
  • DCGAN (2015) introduceerde convolutional architecturen.
  • Progressive GAN (2017) maakte beeldsynthese met hoge resolutie mogelijk (1024×1024).
  • BigGAN (2018): klasse-voorwaardelijke GAN's getraind op ImageNet.
  • Belangrijkste beperkingen: modusinstorting, instabiliteit tijdens training.

VAE's en autoregressieve modellen op pixelniveau (2014–2016)

  • Variational Autoencoders (VAE's) door Kingma & Welling (2013): probabilistische latente ruimte + herparametriseringstruc.
  • Voordelen: stabiele training, interpreteerbare latente ruimte.
  • Nadelen: wazige beelduitvoer.
  • PixelRNN / PixelCNN (2016): autoregressieve pixelmodellering.
  • Extreem trage generatie, maar goede dichtheidsschatting.

StyleGAN en GAN-verbeteringen (2017–2019)

  • StyleGAN door Karras et al. (2018–2019):
  • Tussenliggende latente ruimte + stijlcontrole per laag.
  • Onbegeleide scheiding van semantische kenmerken (bijv. houding, glimlach).
  • Zeer fotorealistische 1024×1024 gezichtssynthese.
  • StyleGAN2 (2020): verbeterde beeldkwaliteit en trainingsstabiliteit.
  • Andere innovaties: Wasserstein GAN (WGAN), WGAN-GP.

VQ-VAE en Transformers (2017–2021)

  • VQ-VAE (2017): afbeelding → discrete tokens via codeboek.
  • Maakt het mogelijk om transformers te gebruiken om afbeeldingsreeksen te modelleren.
  • VQ-VAE-2 (2019): hiërarchische latente variabelen op meerdere schaalniveaus.
  • Image GPT (2020): autoregressieve transformatoren op pixelreeksen.
  • DALL·E (2021) door OpenAI:
  • GPT-achtige transformator over tekst + beeldtokens.
  • Genereert 256×256 beelden op basis van natuurlijke taalprompts.

VQ-GAN: combinatie van transformatoren en adversarial learning (2021)

  • VQ-GAN (2021): combineert VQ-VAE + GAN-verlies.
  • Decoder produceert scherpere beelden dan vanilla VQ-VAE.
  • Gebruikt in CLIP-gestuurde generatiepijplijnen.

Diffusiemodellen nemen het voortouw (2020–2022)

  • DDPM (Ho et al., 2020): Denoising Diffusion Probabilistic Models.
  • Begin met ruis → stap voor stap ruis verwijderen.
  • Hoge beeldgetrouwheid, geen instabiliteit door adversarial training.
  • Classifier-guided diffusion en verbeterde architecturen (Nichol & Dhariwal, 2021).
  • Stabielere, diversere outputs dan GAN's.

De opkomst van tekst-naar-beeldgeneratie (2021–2022)

DALL·E 2 (2022)

  • Generatie op basis van diffusie + CLIP-begeleiding.
  • Resolutie van 1024×1024, inpainting, promptvariaties.
  • Grote sprong voorwaarts op het gebied van fotorealisme en semantische controle.

Google Imagen (2022)

  • Gebruikt het T5-taalmodel voor een beter begrip van tekst.
  • Latente diffusiemodelarchitectuur.
  • Scoort het hoogst op benchmarks voor menselijke voorkeuren.

Midjourney (2022–)

  • Onafhankelijk onderzoekslaboratorium.
  • Artistiek gestileerde generaties, zeer populair in creatieve industrieën.

Stable Diffusion (2022)

  • Open-source latent diffusiemodel van CompVis + Stability AI.
  • Draait op consumenten-GPU's (~2,4 GB VRAM).
  • Gedemocratiseerde toegang tot hoogwaardige tekst-naar-beeldgeneratie.

Beeldkwaliteit en resolutie

  • Van 32×32 wazige vlekken (2014) → 1024×1024 fotorealisme (2022).
  • GAN's: eerste grote sprong voorwaarts in getrouwheid.
  • Diffusiemodellen: betere diversiteit + scherpte.

Semantische controle

  • GAN's: bewerkingen van latente ruimte en klasselabels.
  • DALL·E/Imagen: volledige tekstpromptconditionering.
  • Inpainting, bewerken en compositorische generatie.

Toegankelijkheid

  • Van alleen in het lab naar wereldwijd gebruik:
  • Open-source tools (bijv. Stable Diffusion).
  • Webapps en API's.
  • Creatieve professionals en niet-programmeurs maken nu actief gebruik van generatieve AI.

Conclusie

Van GAN's in 2014 tot open-source tekst-naar-beelddiffusie in 2022: AI-beeldgeneratie is getransformeerd van een academische curiositeit tot een alomtegenwoordig creatief hulpmiddel. Het vakgebied heeft zich ontwikkeld door:

  • Op GAN gebaseerd realisme,
  • Door transformatoren aangestuurd semantisch begrip,
  • Diffusiemodellen die een ongekende beeldkwaliteit en controle mogelijk maken.

Toekomstige ontwikkelingen zijn onder meer videogeneratie, het creëren van 3D-assets en een nauwere integratie met taal- en multimodale systemen. Het tempo van innovatie suggereert dat de volgende generatie visuele AI nog meeslepender, interactiever en toegankelijker zal zijn.