서론
현대 AI 이미지 생성은 2010년대 중반 딥러닝의 획기적 발전에서 비롯되었다. 2014년경부터 연구자들은 이미지를 단순히 인식하는 것이 아니라 완전히 새로운 이미지를 생성하는 신경망을 개발하기 시작했다. 초기 딥 생성 모델은 작고 흐릿한 결과물만 만들어낼 수 있었지만, 급속한 발전으로 곧 사진처럼 사실적이고 고해상도의 이미지를 필요에 따라 생성할 수 있게 되었다.
이 글은 딥러닝 시대의 AI 이미지 생성 기술의 학술적 역사를 추적한다. 2014년 생성적 적대적 네트워크(GAN)의 등장부터 단순한 텍스트 프롬프트로 이미지를 그릴 수 있는 오늘날의 강력한 확산 모델에 이르기까지를 다룬다. 이 과정에서 모델 품질, 해상도, 의미적 제어, 접근성이 어떻게 획기적으로 개선되어 창의적 AI의 혁명을 가져왔는지 살펴볼 것이다.
GANs: 생성적 대립 신경망이 혁명을 시작하다 (2014)
- 2014년 Ian Goodfellow *et al.*에 의해 소개됨.
- 대립적 훈련 루프 내 생성기(Generator)와 판별기(Discriminator).
- 초기 모델은 저해상도 이미지(예: 32x32)를 생성함.
- DCGAN(2015)은 컨볼루션 아키텍처를 도입함.
- 프로그레시브 GAN(2017)은 고해상도 이미지 합성(1024×1024)을 가능케 함.
- BigGAN (2018): ImageNet으로 훈련된 클래스 조건부 GAN.
- 주요 한계: 모드 붕괴, 훈련 불안정성.
VAE와 픽셀 단위 자동회귀 모델 (2014–2016)
- 변형 자동 인코더(VAE) (Kingma & Welling, 2013): 확률적 잠재 공간 + 재매개변수화 기법.
- 장점: 안정적인 학습, 해석 가능한 잠재 공간.
- 단점: 흐릿한 이미지 출력.
- PixelRNN / PixelCNN (2016): 자동회귀 픽셀 모델링.
- 생성 속도는 매우 느리지만 밀도 추정 성능이 우수함.
StyleGAN 및 GAN 개선 연구 (2017–2019)
- Karras 등 (2018–2019)의 StyleGAN:
- 중간 잠재 공간 + 레이어별 스타일 제어.
- 의미적 속성(예: 자세, 미소)의 비지도 학습 기반 분리.
- 매우 사실적인 1024×1024 얼굴 합성.
- StyleGAN2 (2020): 향상된 이미지 품질 및 훈련 안정성.
- 기타 혁신: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE와 트랜스포머 (2017–2021)
- VQ-VAE (2017): 이미지 → 코드북을 통한 이산 토큰.
- 트랜스포머를 사용하여 이미지 시퀀스를 모델링할 수 있게 함.
- VQ-VAE-2 (2019): 계층적 다중 스케일 잠재 변수.
- Image GPT (2020): 픽셀 시퀀스에 대한 자동회귀 트랜스포머.
- OpenAI의 DALL·E (2021):
- 텍스트 + 이미지 토큰에 적용된 GPT 스타일 트랜스포머.
- 자연어 프롬프트로부터 256×256 이미지를 생성합니다.
VQ-GAN: 트랜스포머와 적대적 학습의 결합 (2021)
- VQ-GAN (2021): VQ-VAE와 GAN 손실 함수를 결합합니다.
- 디코더가 일반 VQ-VAE보다 선명한 이미지를 출력합니다.
- CLIP 기반 생성 파이프라인에 활용됩니다.
확산 모델의 부상 (2020–2022)
- DDPM (Ho et al., 2020): 노이즈 제거 확산 확률 모델.
- 노이즈에서 시작 → 단계별 노이즈 제거.
- 높은 이미지 충실도, 적대적 훈련 불안정성 없음.
- 분류기 유도 확산 및 개선된 아키텍처 (Nichol & Dhariwal, 2021).
- GAN보다 안정적이고 다양한 출력.
텍스트-이미지 생성 붐 (2021–2022)
DALL·E 2 (2022)
- 확산 기반 생성 + CLIP 가이드.
- 1024×1024 해상도, 인페인팅, 프롬프트 변형.
- 사진 같은 사실감과 의미적 제어에서 큰 도약.
Google Imagen (2022)
- 더 나은 텍스트 이해를 위해 T5 언어 모델을 사용합니다.
- 잠재 확산 모델 아키텍처.
- 인간 선호도 벤치마크에서 최상위 성능을 보입니다.
Midjourney (2022–)
- 독립 연구실.
- 예술적으로 스타일화된 생성물로, 창작 산업에서 매우 인기 있음.
Stable Diffusion (2022)
- CompVis + Stability AI의 오픈소스 잠재 확산 모델.
- 소비자용 GPU (~2.4GB VRAM)에서 실행 가능.
- 고품질 텍스트-이미지 변환 기술의 대중화.
주요 동향 및 발전
화질 및 해상도
- 32×32 흐릿한 얼룩(2014) → 1024×1024 사진 같은 사실감(2022).
- GAN: 사실감의 첫 주요 도약.
- 확산 모델: 향상된 다양성 + 선명도.
의미 제어
- GAN: 잠재 공간 편집 및 클래스 라벨.
- DALL·E/Imagen: 전체 텍스트 프롬프트 조건화.
- 인페인팅, 편집 및 합성 생성.
접근성
- 연구실 전용에서 글로벌 사용으로:
- 오픈소스 도구(예: Stable Diffusion).
- 웹 애플리케이션 및 API.
- 창작자와 비개발자들도 이제 생성형 AI를 적극적으로 활용합니다.
결론
2014년 GAN(생성적 적대적 네트워크)부터 2022년 오픈소스 텍스트-이미지 확산 모델에 이르기까지, AI 이미지 생성은 학계의 호기심 대상에서 보편적인 창작 도구로 변모했습니다. 이 분야는 다음과 같은 과정을 거쳐 진화해 왔습니다:
- GAN 기반 사실성,
- 트랜스포머 기반 의미 이해,
- 전례 없는 화질과 제어력을 가능케 하는 확산 모델.
향후 발전 방향으로는 영상 생성, 3D 자산 제작, 언어 및 다중 모달 시스템과의 긴밀한 연동이 포함됩니다. 혁신의 속도를 고려할 때 차세대 시각 AI는 더욱 몰입감 있고 상호작용적이며 접근성이 높아질 것으로 예상됩니다.
