La era del aprendizaje profundo en la generación de imágenes mediante IA (2014-presente)

sep. 29, 2025

Introducción

La generación moderna de imágenes mediante IA tiene sus raíces en los avances en el aprendizaje profundo de mediados de la década de 2010. A partir de 2014, los investigadores comenzaron a desarrollar redes neuronales que generan imágenes completamente nuevas en lugar de solo reconocerlas. Los primeros modelos generativos profundos solo podían producir resultados pequeños y borrosos, pero los rápidos avances pronto dieron lugar a imágenes fotorrealistas y de alta resolución bajo demanda.

Este artículo repasa la historia académica de la generación de imágenes mediante IA en la era del aprendizaje profundo, desde la aparición de las redes generativas adversarias (GAN) en 2014 hasta los potentes modelos de difusión actuales, capaces de pintar imágenes a partir de una simple indicación de texto. A lo largo del camino, veremos cómo la calidad de los modelos, la resolución, el control semántico y la accesibilidad han mejorado drásticamente, lo que ha dado lugar a una revolución en la IA creativa.

GAN: Las redes generativas adversarias inician una revolución (2014)

  • Introducidas por Ian Goodfellow et al. en 2014.
  • Generador y discriminador en un bucle de entrenamiento adversario.
  • Los primeros modelos producían imágenes de baja resolución (por ejemplo, 32x32).
  • DCGAN (2015) introdujo arquitecturas convolucionales.
  • Progressive GAN (2017) permitió la síntesis de imágenes de alta resolución (1024×1024).
  • BigGAN (2018): GAN condicionales por clase entrenadas en ImageNet.
  • Limitaciones clave: colapso de modo, inestabilidad del entrenamiento.

VAE y modelos autorregresivos a nivel de píxel (2014-2016)

  • Autoencoders variacionales (VAE) de Kingma y Welling (2013): espacio latente probabilístico + truco de reparametrización.
  • Ventajas: entrenamiento estable, espacio latente interpretable.
  • Inconvenientes: imágenes de salida borrosas.
  • PixelRNN / PixelCNN (2016): modelado autorregresivo de píxeles.
  • Generación extremadamente lenta, pero buena estimación de densidad.

StyleGAN y refinamientos de GAN (2017-2019)

  • StyleGAN de Karras et al. (2018-2019):
  • Espacio latente intermedio + control de estilo por capa.
  • Separación no supervisada de atributos semánticos (por ejemplo, pose, sonrisa).
  • Síntesis de rostros altamente fotorrealistas de 1024×1024.
  • StyleGAN2 (2020): mejora de la calidad de la imagen y la estabilidad del entrenamiento.
  • Otras innovaciones: Wasserstein GAN (WGAN), WGAN-GP.

VQ-VAE y Transformers (2017-2021)

  • VQ-VAE (2017): imagen → tokens discretos a través de un libro de códigos.
  • Permite el uso de transformadores para modelar secuencias de imágenes.
  • VQ-VAE-2 (2019): latentes jerárquicos multiescala.
  • Image GPT (2020): transformadores autorregresivos en secuencias de píxeles.
  • DALL·E (2021) de OpenAI:
  • Transformador de estilo GPT sobre tokens de texto + imagen.
  • Genera imágenes de 256×256 a partir de indicaciones en lenguaje natural.

VQ-GAN: combinación de transformadores y aprendizaje adversario (2021)

  • VQ-GAN (2021): combina VQ-VAE + pérdida GAN.
  • El decodificador genera imágenes más nítidas que el VQ-VAE básico.
  • Se utiliza en procesos de generación guiados por CLIP.

Los modelos de difusión toman la delantera (2020-2022)

  • DDPM (Ho et al., 2020): Modelos probabilísticos de difusión con eliminación de ruido.
  • Comienza con ruido → elimina el ruido paso a paso.
  • Alta fidelidad de imagen, sin inestabilidad en el entrenamiento adversarial.
  • Difusión guiada por clasificador y arquitecturas mejoradas (Nichol y Dhariwal, 2021).
  • Resultados más estables y diversos que los GAN.

El auge de la generación de texto a imagen (2021-2022)

DALL·E 2 (2022)

: generación basada en difusión + orientación CLIP. : resolución de 1024×1024, relleno, variaciones de prompt. : gran avance en fotorrealismo y control semántico.

Google Imagen (2022)

: utiliza el modelo de lenguaje T5 para una mejor comprensión del texto. : arquitectura de modelo de difusión latente. : supera los puntos de referencia de preferencia humana.

Midjourney (2022–)

  • Laboratorio de investigación independiente.
  • Generaciones estilizadas artísticamente, muy populares en las industrias creativas.

Stable Diffusion (2022)

: modelo de difusión latente de código abierto desarrollado por CompVis + Stability AI. : funciona con GPU de consumo (~2,4 GB de VRAM). : acceso democratizado a la generación de imágenes a partir de texto de alta calidad.

Tendencias y avances clave

Calidad y resolución de imagen

  • De manchas borrosas de 32×32 (2014) → fotorrealismo de 1024×1024 (2022).
  • GAN: primer gran salto en fidelidad.
  • Modelos de difusión: mayor diversidad y nitidez.

Control semántico

  • GAN: ediciones del espacio latente y etiquetas de clase.
  • DALL·E/Imagen: acondicionamiento completo del texto de entrada.
  • Relleno, edición y generación compositiva.

Accesibilidad

: de un uso exclusivo en laboratorio a un uso global: : herramientas de código abierto (por ejemplo, Stable Diffusion). : aplicaciones web y API. : los creadores y los no programadores ahora utilizan activamente la IA generativa.

Conclusión

Desde las GAN en 2014 hasta la difusión de código abierto de texto a imagen en 2022, la generación de imágenes mediante IA ha pasado de ser una curiosidad académica a convertirse en una herramienta creativa omnipresente. El campo ha evolucionado a través de:

  • Realismo basado en GAN,
  • Comprensión semántica impulsada por transformadores,
  • Modelos de difusión que permiten una calidad y un control de imagen sin precedentes.

Las direcciones futuras incluyen la generación de vídeo, la creación de activos 3D y una integración más estrecha con los sistemas lingüísticos y multimodales. El ritmo de la innovación sugiere que la próxima generación de IA visual será aún más inmersiva, interactiva y accesible.