Éra hlubokého učení v oblasti generování obrazů pomocí umělé inteligence (2014–současnost)

zář 29, 2025

Úvod

Moderní generování obrazů pomocí umělé inteligence má své kořeny v průlomech v oblasti hlubokého učení v polovině první dekády tohoto století. Kolem roku 2014 začali vědci vyvíjet neuronové sítě, které generují zcela nové obrazy, namísto toho, aby je pouze rozpoznávaly. Rané generativní modely dokázaly produkovat pouze malé, rozmazané výstupy, ale rychlý pokrok brzy přinesl fotorealistické obrazy s vysokým rozlišením na požádání.

Tento článek sleduje akademickou historii generování obrazů pomocí umělé inteligence v éře hlubokého učení – od vzniku generativních soupeřících sítí (GAN) v roce 2014 až po dnešní výkonné difúzní modely, které dokážou malovat obrázky na základě jednoduchého textového podnětu. Podíváme se také na to, jak se dramaticky zlepšila kvalita modelů, rozlišení, sémantická kontrola a přístupnost, což vedlo k revoluci v oblasti kreativní umělé inteligence.

GAN: Generativní soupeřící sítě odstartovaly revoluci (2014)

  • Představeno Ianem Goodfellowem et al. v roce 2014.
  • Generátor a diskriminátor v soupeřící tréninkové smyčce.
  • První modely produkovaly obrázky s nízkým rozlišením (např. 32x32).
  • DCGAN (2015) zavedl konvoluční architektury.
  • Progressive GAN (2017) umožnil syntézu obrázků s vysokým rozlišením (1024×1024).
  • BigGAN (2018): třídně podmíněné GAN trénované na ImageNet.
  • Klíčová omezení: kolaps režimu, nestabilita tréninku.

VAE a autoregresivní modely na úrovni pixelů (2014–2016)

  • Variační autoenkodéry (VAE) od Kingmy & Wellinga (2013): pravděpodobnostní latentní prostor + trik reparametrizace.
  • Výhody: stabilní trénink, interpretovatelný latentní prostor.
  • Nevýhody: rozmazané výstupy obrazu.
  • PixelRNN / PixelCNN (2016): autoregresivní modelování pixelů.
  • Extrémně pomalá generace, ale dobré odhadování hustoty.

Vylepšení StyleGAN a GAN (2017–2019)

  • StyleGAN od Karras et al. (2018–2019):
  • Střední latentní prostor + ovládání stylu pro každou vrstvu.
  • Neřízené oddělení sémantických atributů (např. póza, úsměv).
  • Vysoce fotorealistická syntéza obličeje 1024×1024.
  • StyleGAN2 (2020): vylepšená kvalita obrazu a stabilita tréninku.
  • Další inovace: Wasserstein GAN (WGAN), WGAN-GP.

VQ-VAE a transformátory (2017–2021)

  • VQ-VAE (2017): obraz → diskrétní tokeny prostřednictvím kódové knihy.
  • Umožňuje použití transformátorů k modelování obrazových sekvencí.
  • VQ-VAE-2 (2019): hierarchické víceúrovňové latentní proměnné.
  • Image GPT (2020): autoregresivní transformátory na sekvencích pixelů.
  • DALL·E (2021) od OpenAI:
  • Transformátor ve stylu GPT nad textovými + obrazovými tokeny.
  • Generuje obrázky o rozměrech 256×256 z podnětů v přirozeném jazyce.

VQ-GAN: Kombinace transformátorů a soupeřivého učení (2021)

  • VQ-GAN (2021): kombinuje ztrátu VQ-VAE + GAN.
  • Dekodér generuje ostřejší obrázky než klasický VQ-VAE.
  • Používá se v generovacích pipelinech řízených CLIP.

Difúzní modely se ujímají vedení (2020–2022)

  • DDPM (Ho et al., 2020): Denoising Diffusion Probabilistic Models (Difúzní pravděpodobnostní modely s odšumováním).
  • Začněte od šumu → odšumujte krok za krokem.
  • Vysoká věrnost obrazu, žádná nestabilita při adversarial training.
  • Difúze řízená klasifikátorem a vylepšené architektury (Nichol & Dhariwal, 2021).
  • Stabilnější a rozmanitější výstupy než GAN.

Boom generování textu do obrazu (2021–2022)

DALL·E 2 (2022)

– Generování založené na difuzi + vedení CLIP. – Rozlišení 1024×1024, retušování, variace promptů. – Významný pokrok v fotorealismu a sémantické kontrole.

Google Imagen (2022)

– Používá jazykový model T5 pro lepší porozumění textu. – Architektura modelu latentní difúze. – Překonává benchmarky lidských preferencí.

Midjourney (2022–)

– Nezávislá výzkumná laboratoř. – Umělecky stylizované generace, velmi populární v kreativním průmyslu.

Stable Diffusion (2022)

– Open-source model latentní difúze od CompVis + Stability AI. – Běží na spotřebitelských GPU (~2,4 GB VRAM). – Demokratizovaný přístup k vysoce kvalitní generaci textu na obrázek.

Klíčové trendy a pokroky

Kvalita obrazu a rozlišení

  • Od rozmazaných skvrn o rozměrech 32×32 (2014) → fotorealismus 1024×1024 (2022).
  • GAN: první velký skok v přesnosti.
  • Difúzní modely: lepší rozmanitost + ostrost.

Sémantická kontrola

  • GAN: úpravy latentního prostoru a třídní štítky.
  • DALL·E/Imagen: podmíněné zadávání celého textu.
  • Retušování, úpravy a generování kompozic.

Dostupnost

– Od laboratorního použití k celosvětovému využití: – Open-source nástroje (např. Stable Diffusion). – Webové aplikace a API. – Tvůrci a neprogramátoři nyní aktivně využívají generativní AI.

Závěr

Od GAN v roce 2014 po open-source difúzi textu do obrazu v roce 2022 se generování obrazů pomocí AI proměnilo z akademické kuriozity v všudypřítomný kreativní nástroj. Tato oblast se vyvinula prostřednictvím:

  • Realismus založený na GAN,
  • Sémantické porozumění založené na transformátorech,
  • Difúzní modely umožňující bezprecedentní kvalitu a kontrolu obrazu.

Mezi budoucí směry patří generování videa, tvorba 3D assetů a užší integrace s jazykovými a multimodálními systémy. Tempo inovací naznačuje, že příští generace vizuální AI bude ještě více pohlcující, interaktivní a přístupná.