Innledning
Moderne AI-bildegenerering har sine røtter i gjennombruddene innen dyp læring på midten av 2010-tallet. Rundt 2014 begynte forskere å utvikle nevrale nettverk som genererer helt nye bilder i stedet for bare å gjenkjenne dem. De første dype generative modellene kunne bare produsere små, uskarpe bilder, men raske fremskritt førte snart til fotorealistiske bilder med høy oppløsning på forespørsel.
Denne artikkelen sporer den akademiske historien til AI-bildegenerering i deep learning-æraen – fra fremveksten av Generative Adversarial Networks (GAN) i 2014 til dagens kraftige diffusjonsmodeller som kan male bilder fra en enkel tekstprompt. Underveis vil vi se hvordan modellkvalitet, oppløsning, semantisk kontroll og tilgjengelighet har blitt dramatisk forbedret, noe som har ført til en revolusjon innen kreativ AI.
GAN: Generative Adversarial Networks Kickstart a Revolution (2014)
- Introdusert av Ian Goodfellow et al. i 2014.
- Generator og diskriminator i adversarial treningssløyfe.
- De første modellene produserte bilder med lav oppløsning (f.eks. 32x32).
- DCGAN (2015) introduserte konvolusjonelle arkitekturer.
- Progressive GAN (2017) muliggjorde syntese av bilder med høy oppløsning (1024×1024).
- BigGAN (2018): klassebetingede GAN-er trent på ImageNet.
- Viktige begrensninger: modekollaps, ustabil trening.
VAE-er og autoregressive modeller på pikselnivå (2014–2016)
- Variational Autoencoders (VAE-er) av Kingma & Welling (2013): probabilistisk latent rom + reparameteriseringstriks.
- Fordeler: stabil trening, tolkbar latent rom.
- Ulemper: uskarpe bildeutdata.
- PixelRNN / PixelCNN (2016): autoregressiv pikselmodellering.
- Ekstremt langsom generering, men god tetthetsestimering.
StyleGAN og GAN-forbedringer (2017–2019)
- StyleGAN av Karras et al. (2018–2019):
- Mellomliggende latent rom + stilkontroll per lag.
- Uovervåket separasjon av semantiske attributter (f.eks. positur, smil).
- Svært fotorealistisk 1024×1024 ansiktssyntese.
- StyleGAN2 (2020): forbedret bildekvalitet og treningsstabilitet.
- Andre innovasjoner: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE og transformatorer (2017–2021)
- VQ-VAE (2017): bilde → diskrete tokens via kodebok.
- Tillater bruk av transformatorer for å modellere bildesekvenser.
- VQ-VAE-2 (2019): hierarkiske latente variabler i flere skalaer.
- Image GPT (2020): autoregressive transformatorer på pikselsekvenser.
- DALL·E (2021) av OpenAI:
- GPT-stil transformator over tekst + bildetokener.
- Genererer 256×256 bilder fra naturlige språkprompter.
VQ-GAN: Kombinering av transformatorer og adversarial læring (2021)
- VQ-GAN (2021): kombinerer VQ-VAE + GAN-tap.
- Dekoderen gir skarpere bilder enn vanlig VQ-VAE.
- Brukes i CLIP-styrte genereringsrørledninger.
Diffusjonsmodeller tar ledelsen (2020–2022)
- DDPM (Ho et al., 2020): Støyfjernende diffusjonsprobabilistiske modeller.
- Start med støy → fjern støy trinn for trinn.
- Høy bildekvalitet, ingen ustabilitet ved adversarial trening.
- Klassifikatorstyrt diffusjon og forbedrede arkitekturer (Nichol & Dhariwal, 2021).
- Mer stabile og varierte resultater enn GAN-er.
Boom i tekst-til-bilde-generering (2021–2022)
DALL·E 2 (2022)
- Diffusjonsbasert generering + CLIP-veiledning.
- 1024×1024 oppløsning, inpainting, prompt-variasjoner.
- Stort sprang i fotorealisme og semantisk kontroll.
Google Imagen (2022)
- Bruker T5-språkmodell for bedre tekstforståelse.
- Latent diffusjonsmodellarkitektur.
- Toppkarakterer i menneskelige preferansebenchmarks.
Midjourney (2022–)
- Uavhengig forskningslaboratorium.
- Kunstnerisk stiliserte generasjoner, svært populære i kreative bransjer.
Stable Diffusion (2022)
- Åpen kildekode latent diffusjonsmodell av CompVis + Stability AI.
- Kjører på forbruker-GPUer (~2,4 GB VRAM).
- Demokratisert tilgang til generering av tekst til bilder av høy kvalitet.
Viktige trender og fremskritt
Bildekvalitet og oppløsning
- Fra 32×32 uskarpe flekker (2014) → 1024×1024 fotorealistisk (2022).
- GAN-er: første store sprang i trofasthet.
- Diffusjonsmodeller: bedre mangfold + skarphet.
Semantisk kontroll
- GAN-er: redigeringer av latent rom og klassetiketter.
- DALL·E/Imagen: fulltekstpromptkondisjonering.
- Inpainting, redigering og komposisjonell generering.
Tilgjengelighet
- Fra kun laboratoriebruk til global bruk:
- Åpne kildekodeverktøy (f.eks. Stable Diffusion).
- Nettapper og API-er.
- Skapere og ikke-programmerere bruker nå generativ AI aktivt.
Konklusjon
Fra GAN-er i 2014 til åpen kildekode for tekst-til-bilde-diffusjon i 2022 har AI-bildegenerering gått fra å være en akademisk kuriositet til å bli et allment kreativt verktøy. Feltet har utviklet seg gjennom:
- GAN-basert realisme,
- Transformer-drevet semantisk forståelse,
- Diffusjonsmodeller som muliggjør enestående bildekvalitet og kontroll.
Fremtidige retninger inkluderer videoproduksjon, 3D-ressursutvikling og tettere integrering med språk- og multimodale systemer. Innovasjonstakten tyder på at neste generasjon visuell AI vil bli enda mer immersiv, interaktiv og tilgjengelig.
