Wprowadzenie
Współczesne generowanie obrazów przez sztuczną inteligencję ma swoje korzenie w przełomowych odkryciach w dziedzinie głębokiego uczenia się, które miały miejsce w połowie pierwszej dekady XXI wieku. Około 2014 roku naukowcy rozpoczęli prace nad sieciami neuronowymi, które nie tylko rozpoznają obrazy, ale także generują zupełnie nowe. Wczesne modele generatywne były w stanie tworzyć jedynie niewielkie, rozmyte obrazy, ale szybki postęp sprawił, że wkrótce zaczęto uzyskiwać fotorealistyczne obrazy o wysokiej rozdzielczości na żądanie.
W niniejszym artykule przedstawiono historię akademicką generowania obrazów przez sztuczną inteligencję w erze głębokiego uczenia się – od pojawienia się generatywnych sieci przeciwstawnych (GAN) w 2014 r. do dzisiejszych potężnych modeli dyfuzyjnych, które potrafią malować obrazy na podstawie prostego polecenia tekstowego. Po drodze zobaczymy, jak radykalnie poprawiła się jakość modeli, rozdzielczość, kontrola semantyczna i dostępność, zapoczątkowując rewolucję w kreatywnej sztucznej inteligencji.
GAN: Generative Adversarial Networks Kickstart a Revolution (2014)
- Wprowadzone przez Iana Goodfellowa i innych w 2014 r.
- Generator i dyskryminator w pętli szkolenia opartego na rywalizacji.
- Pierwsze modele generowały obrazy o niskiej rozdzielczości (np. 32x32).
- DCGAN (2015) wprowadził architekturę konwolucyjną.
- Progressive GAN (2017) umożliwił syntezę obrazów o wysokiej rozdzielczości (1024×1024).
- BigGAN (2018): GAN warunkujące klasę, trenowane na ImageNet.
- Kluczowe ograniczenia: załamanie trybu, niestabilność treningu.
VAE i modele autoregresyjne na poziomie pikseli (2014–2016)
- Wariacyjne autoenkodery (VAE) autorstwa Kingma & Welling (2013): probabilistyczna przestrzeń ukryta + sztuczka reparametryzacji.
- Zalety: stabilne szkolenie, interpretowalna przestrzeń ukryta.
- Wady: rozmyte obrazy wyjściowe.
- PixelRNN / PixelCNN (2016): autoregresyjne modelowanie pikseli.
- Bardzo powolne generowanie, ale dobre oszacowanie gęstości.
Udoskonalenia StyleGAN i GAN (2017–2019)
- StyleGAN autorstwa Karras et al. (2018–2019):
- Pośrednia przestrzeń ukryta + kontrola stylu dla poszczególnych warstw.
- Nienadzorowane rozdzielanie atrybutów semantycznych (np. pozycja, uśmiech).
- Wysoce fotorealistyczna synteza twarzy 1024×1024.
- StyleGAN2 (2020): poprawiona jakość obrazu i stabilność szkolenia.
- Inne innowacje: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE i transformatory (2017–2021)
- VQ-VAE (2017): obraz → dyskretne tokeny za pośrednictwem kodownika.
- Umożliwia wykorzystanie transformatorów do modelowania sekwencji obrazów.
- VQ-VAE-2 (2019): hierarchiczne wieloskalowe ukryte cechy.
- Image GPT (2020): transformatory autoregresyjne na sekwencjach pikseli.
- DALL·E (2021) autorstwa OpenAI:
- transformator typu GPT dla tokenów tekstowych i obrazowych.
- generuje obrazy o rozmiarze 256×256 na podstawie poleceń w języku naturalnym.
VQ-GAN: połączenie transformatorów i uczenia przeciwstawnego (2021)
- VQ-GAN (2021): łączy stratę VQ-VAE + GAN.
- Dekoder generuje ostrzejsze obrazy niż zwykły VQ-VAE.
- Wykorzystywany w potokach generowania kierowanych przez CLIP.
Modele dyfuzyjne przejmują prowadzenie (2020–2022)
- DDPM (Ho et al., 2020): Modele probabilistyczne dyfuzji z redukcją szumu.
- Rozpocznij od szumu → redukuj szum krok po kroku.
- Wysoka wierność obrazu, brak niestabilności treningu przeciwniczego.
- Dyfuzja kierowana klasyfikatorem i ulepszone architektury (Nichol & Dhariwal, 2021).
- Bardziej stabilne i zróżnicowane wyniki niż w przypadku sieci GAN.
Boom na generowanie obrazów na podstawie tekstu (2021–2022)
DALL·E 2 (2022)
– Generowanie oparte na dyfuzji + wskazówki CLIP. – Rozdzielczość 1024×1024, uzupełnianie braków, różnorodność podpowiedzi. – Znaczący postęp w zakresie fotorealizmu i kontroli semantycznej.
Google Imagen (2022)
– Wykorzystuje model językowy T5 w celu lepszego zrozumienia tekstu. – Architektura modelu dyfuzji utajonej. – Najwyższe wyniki w testach preferencji użytkowników.
Midjourney (2022–)
– Niezależne laboratorium badawcze. – Artystycznie stylizowane generacje, bardzo popularne w branżach kreatywnych.
Stable Diffusion (2022)
– Otwarty model dyfuzji utajonej opracowany przez CompVis + Stability AI. – Działa na konsumenckich procesorach graficznych (~2,4 GB pamięci VRAM). – Demokratyczny dostęp do wysokiej jakości generowania obrazów na podstawie tekstu.
Kluczowe trendy i postępy
Jakość obrazu i rozdzielczość
- Od rozmytych plam o rozmiarze 32×32 (2014) → fotorealizm 1024×1024 (2022).
- GAN: pierwszy znaczący skok w zakresie wierności odwzorowania.
- Modele dyfuzyjne: większa różnorodność + ostrość.
Kontrola semantyczna
- GAN: edycja przestrzeni ukrytej i etykiety klas.
- DALL·E/Imagen: pełne warunkowanie tekstowe.
- Uzupełnianie, edycja i generowanie kompozycji.
Dostępność
– Od zastosowań wyłącznie laboratoryjnych do globalnego wykorzystania: – Narzędzia open source (np. Stable Diffusion). – Aplikacje internetowe i interfejsy API. – Twórcy i osoby niebędące programistami aktywnie korzystają obecnie z generatywnej sztucznej inteligencji.
Wnioski
Od sieci GAN w 2014 r. do otwartego oprogramowania do dyfuzji tekstu do obrazu w 2022 r. generowanie obrazów przez sztuczną inteligencję przekształciło się z akademickiej ciekawostki w powszechnie stosowane narzędzie twórcze. Dziedzina ta ewoluowała poprzez:
- Realizm oparty na GAN,
- Rozumienie semantyczne oparte na transformatorze,
- Modele dyfuzyjne zapewniające niespotykaną dotąd jakość obrazu i kontrolę.
Kierunki rozwoju na przyszłość obejmują generowanie wideo, tworzenie zasobów 3D oraz ściślejszą integrację z systemami językowymi i multimodalnymi. Tempo innowacji sugeruje, że następna generacja wizualnej sztucznej inteligencji będzie jeszcze bardziej wciągająca, interaktywna i dostępna.
