Introdução
A geração moderna de imagens por IA tem as suas raízes nos avanços do deep learning em meados da década de 2010. A partir de 2014, os investigadores começaram a desenvolver redes neurais que geram imagens totalmente novas, em vez de apenas reconhecê-las. Os primeiros modelos generativos profundos só conseguiam produzir resultados minúsculos e desfocados, mas os rápidos avanços logo renderam imagens fotorrealistas e de alta resolução sob demanda.
Este artigo traça a história académica da geração de imagens por IA na era do deep learning – desde o advento das Redes Adversariais Generativas (GANs) em 2014 até aos poderosos modelos de difusão atuais, capazes de pintar imagens a partir de um simples prompt de texto. Ao longo do caminho, veremos como a qualidade do modelo, a resolução, o controlo semântico e a acessibilidade melhoraram drasticamente, dando início a uma revolução na IA criativa.
GANs: Redes Adversariais Generativas Dão Início a uma Revolução (2014)
- Introduzidas por Ian Goodfellow et al. em 2014.
- Gerador e discriminador em ciclo de treino adversarial.
- Os primeiros modelos produziam imagens de baixa resolução (por exemplo, 32x32).
- DCGAN (2015) introduziu arquiteturas convolucionais.
- Progressive GAN (2017) permitiu a síntese de imagens de alta resolução (1024×1024).
- BigGAN (2018): GANs condicionais por classe treinados no ImageNet.
- Principais limitações: colapso de modo, instabilidade de treino.
VAEs e modelos autorregressivos ao nível do pixel (2014–2016)
- Autoencoders variacionais (VAEs) por Kingma & Welling (2013): espaço latente probabilístico + truque de reparametrização.
- Prós: treino estável, espaço latente interpretável.
- Contras: imagens de saída desfocadas.
- PixelRNN / PixelCNN (2016): modelação autoregressiva de pixels.
- Geração extremamente lenta, mas boa estimativa de densidade.
StyleGAN e aperfeiçoamentos GAN (2017–2019)
- StyleGAN por Karras et al. (2018–2019):
- Espaço latente intermédio + controlo de estilo por camada.
- Separação não supervisionada de atributos semânticos (por exemplo, pose, sorriso).
- Síntese facial altamente fotorrealista de 1024×1024.
- StyleGAN2 (2020): qualidade de imagem e estabilidade de treino melhoradas.
- Outras inovações: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE e Transformadores (2017–2021)
- VQ-VAE (2017): imagem → tokens discretos através de livro de códigos.
- Permite o uso de transformadores para modelar sequências de imagens.
- VQ-VAE-2 (2019): latentes hierárquicos multiescala.
- Image GPT (2020): transformadores autorregressivos em sequências de pixels.
- DALL·E (2021) da OpenAI:
- Transformador estilo GPT sobre tokens de texto + imagem.
- Gera imagens 256×256 a partir de prompts de linguagem natural.
VQ-GAN: Combinando Transformadores e Aprendizagem Adversária (2021)
- VQ-GAN (2021): combina VQ-VAE + perda GAN.
- O descodificador produz imagens mais nítidas do que o VQ-VAE básico.
- Utilizado em pipelines de geração guiados por CLIP.
Modelos de difusão assumem a liderança (2020–2022)
- DDPM (Ho et al., 2020): Modelos probabilísticos de difusão com redução de ruído.
- Comece com ruído → reduza o ruído passo a passo.
- Alta fidelidade de imagem, sem instabilidade de treino adversário.
- Difusão guiada por classificador e arquiteturas melhoradas (Nichol & Dhariwal, 2021).
- Resultados mais estáveis e diversificados do que os GANs.
O boom da geração de texto para imagem (2021–2022)
DALL·E 2 (2022)
- Geração baseada em difusão + orientação CLIP.
- Resolução de 1024×1024, preenchimento, variações de prompt.
- Grande avanço em fotorrealismo e controlo semântico.
Google Imagen (2022)
- Utiliza o modelo de linguagem T5 para uma melhor compreensão do texto.
- Arquitetura de modelo de difusão latente.
- Supera os benchmarks de preferência humana.
Midjourney (2022–)
- Laboratório de investigação independente.
- Gerações artisticamente estilizadas, muito populares nas indústrias criativas.
Stable Diffusion (2022)
- Modelo de difusão latente de código aberto da CompVis + Stability AI.
- Funciona em GPUs de consumo (~2,4 GB de VRAM).
- Acesso democratizado à geração de texto para imagem de alta qualidade.
Principais tendências e avanços
Qualidade e resolução da imagem
- De manchas borradas de 32×32 (2014) → fotorrealismo de 1024×1024 (2022).
- GANs: primeiro grande salto em fidelidade.
- Modelos de difusão: melhor diversidade + nitidez.
Controlo semântico
- GANs: edições do espaço latente e rótulos de classe.
- DALL·E/Imagen: condicionamento de prompt de texto completo.
- Preenchimento, edição e geração composicional.
Acessibilidade
- Do uso exclusivo em laboratório para o uso global:
- Ferramentas de código aberto (por exemplo, Stable Diffusion).
- Aplicações web e APIs.
- Criadores e não programadores agora utilizam ativamente a IA generativa.
Conclusão
Desde as GANs em 2014 até a difusão de código aberto de texto para imagem em 2022, a geração de imagens por IA passou de uma curiosidade académica para uma ferramenta criativa onipresente. O campo evoluiu através de:
- Realismo baseado em GAN,
- Compreensão semântica impulsionada por transformadores,
- Modelos de difusão que permitem uma qualidade e controlo de imagem sem precedentes.
As direções futuras incluem geração de vídeo, criação de recursos 3D e integração mais estreita com sistemas linguísticos e multimodais. O ritmo da inovação sugere que a próxima geração de IA visual será ainda mais imersiva, interativa e acessível.
