Pengantar
Generasi gambar AI modern berakar pada terobosan deep learning pada pertengahan 2010-an. Mulai sekitar tahun 2014, para peneliti mulai mengembangkan jaringan saraf tiruan yang menghasilkan gambar baru sepenuhnya daripada hanya mengenali gambar yang sudah ada. Model generatif deep learning awal hanya dapat menghasilkan output yang kecil dan buram, tetapi kemajuan pesat segera menghasilkan gambar fotorealistik beresolusi tinggi sesuai permintaan.
Artikel ini menelusuri sejarah akademis generasi gambar AI di era deep learning – mulai dari kemunculan Generative Adversarial Networks (GANs) pada tahun 2014 hingga model difusi yang kuat saat ini yang mampu menghasilkan gambar dari prompt teks sederhana. Sepanjang perjalanan, kita akan melihat bagaimana kualitas model, resolusi, kontrol semantik, dan aksesibilitas telah mengalami peningkatan dramatis, membawa revolusi dalam AI kreatif.
Jaringan Adversarial Generatif (GAN): Memulai Revolusi (2014)
- Dikenalkan oleh Ian Goodfellow et al. pada tahun 2014.
- Generator dan diskriminator dalam lingkaran pelatihan adversarial.
- Model awal menghasilkan gambar beresolusi rendah (misalnya, 32x32).
- DCGAN (2015) memperkenalkan arsitektur konvolusional.
- Progressive GAN (2017) memungkinkan sintesis gambar beresolusi tinggi (1024×1024).
- BigGAN (2018): GAN bersyarat kelas yang dilatih pada ImageNet.
- Batasan utama: mode collapse, ketidakstabilan pelatihan.
VAEs dan Model Autoregresif Tingkat Piksel (2014–2016)
- Variational Autoencoders (VAEs) oleh Kingma & Welling (2013): ruang laten probabilistik + trik reparameterisasi.
- Kelebihan: pelatihan stabil, ruang laten yang dapat diinterpretasikan.
- Kelemahan: output gambar yang buram.
- PixelRNN / PixelCNN (2016): pemodelan piksel autoregresif.
- Generasi yang sangat lambat tetapi estimasi densitas yang baik.
StyleGAN dan Perbaikan GAN (2017–2019)
- StyleGAN oleh Karras et al. (2018–2019):
- Ruang laten intermediet + kontrol gaya per lapisan.
- Pemisahan atribut semantik tanpa pengawasan (misalnya, pose, senyum).
- Sintesis wajah 1024×1024 yang sangat fotorealistik.
- StyleGAN2 (2020): peningkatan kualitas gambar dan stabilitas pelatihan.
- Inovasi lain: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE dan Transformers (2017–2021)
- VQ-VAE (2017): gambar → token diskrit melalui kamus kode.
- Memungkinkan penggunaan transformers untuk memodelkan urutan gambar.
- VQ-VAE-2 (2019): latensi hierarkis multi-skala.
- Image GPT (2020): transformers autoregresif pada urutan piksel.
- DALL·E (2021) oleh OpenAI:
- Transformer gaya GPT atas token teks + gambar.
- Menghasilkan gambar 256×256 dari prompt bahasa alami.
VQ-GAN: Menggabungkan Transformers dan Pembelajaran Adversarial (2021)
- VQ-GAN (2021): menggabungkan VQ-VAE dengan kerugian GAN.
- Decoder menghasilkan gambar yang lebih tajam dibandingkan VQ-VAE standar.
- Digunakan dalam pipeline generasi yang dipandu CLIP.
Model Difusi Memimpin (2020–2022)
- DDPM (Ho et al., 2020): Model Difusi Probabilistik dengan Denoising.
- Dimulai dari noise → denoising secara bertahap.
- Kualitas gambar tinggi, tanpa ketidakstabilan pelatihan adversarial.
- Diffusion yang dipandu klasifikasi dan arsitektur yang ditingkatkan (Nichol & Dhariwal, 2021).
- Keluaran yang lebih stabil dan beragam dibandingkan GAN.
Booming Generasi Teks ke Gambar (2021–2022)
DALL·E 2 (2022)
- Generasi berbasis difusi + panduan CLIP.
- Resolusi 1024×1024, inpainting, variasi prompt.
- Lompatan besar dalam fotorealitas dan kontrol semantik.
Google Imagen (2022)
- Menggunakan model bahasa T5 untuk pemahaman teks yang lebih baik.
- Arsitektur model difusi laten.
- Melampaui tolok ukur preferensi manusia.
Midjourney (2022–)
- Laboratorium riset independen.
- Generasi yang diolah secara artistik, sangat populer di industri kreatif.
Stable Diffusion (2022)
- Model difusi laten sumber terbuka oleh CompVis + Stability AI.
- Berjalan pada GPU konsumen (~2,4 GB VRAM).
- Akses yang terjangkau ke generasi teks-ke-gambar berkualitas tinggi.
Tren dan Kemajuan Utama
Kualitas Gambar & Resolusi
- Dari 32×32 bintik buram (2014) → 1024×1024 fotorealistik (2022).
- GANs: lompatan besar pertama dalam ketepatan.
- Model difusi: keragaman dan ketajaman yang lebih baik.
Kontrol Semantik
- GANs: pengeditan ruang laten dan label kelas.
- DALL·E/Imagen: pengkondisian prompt teks lengkap.
- Inpainting, pengeditan, dan generasi komposisional.
Aksesibilitas
- Dari penggunaan di laboratorium saja hingga penggunaan global:
- Alat sumber terbuka (misalnya, Stable Diffusion).
- Aplikasi web dan API.
- Pencipta dan non-programmer kini secara aktif menggunakan kecerdasan buatan generatif.
Kesimpulan
Dari GANs pada tahun 2014 hingga difusi teks-ke-gambar sumber terbuka pada tahun 2022, generasi gambar AI telah bertransformasi dari sebuah keingintahuan akademis menjadi alat kreatif yang umum digunakan. Bidang ini telah berkembang melalui:
- Realisme berbasis GAN,
- Pemahaman semantik yang didorong oleh Transformer,
- Model difusi yang memungkinkan kualitas gambar dan kontrol yang belum pernah ada sebelumnya.
Arah pengembangan di masa depan mencakup pembangkitan video, pembuatan aset 3D, dan integrasi yang lebih erat dengan sistem bahasa dan multimodal. Kecepatan inovasi menunjukkan bahwa generasi berikutnya dari kecerdasan buatan visual akan menjadi lebih imersif, interaktif, dan mudah diakses.
