Giới thiệu
Công nghệ tạo hình ảnh bằng trí tuệ nhân tạo (AI) hiện đại có nguồn gốc từ những đột phá trong lĩnh vực học sâu (deep learning) vào giữa thập niên 2010. Kể từ năm 2014, các nhà nghiên cứu bắt đầu phát triển các mạng thần kinh có khả năng tạo ra hình ảnh hoàn toàn mới thay vì chỉ nhận diện chúng. Các mô hình sinh thành sâu ban đầu chỉ có thể tạo ra những hình ảnh nhỏ, mờ nhạt, nhưng những tiến bộ nhanh chóng sau đó đã cho phép tạo ra hình ảnh chân thực, độ phân giải cao theo yêu cầu.
Bài viết này trình bày lịch sử phát triển của công nghệ tạo hình ảnh bằng trí tuệ nhân tạo (AI) trong kỷ nguyên học sâu – từ sự ra đời của Mạng đối kháng sinh thành (GANs) vào năm 2014 cho đến các mô hình khuếch tán mạnh mẽ ngày nay có thể tạo ra hình ảnh từ một đoạn văn bản đơn giản. Trên hành trình này, chúng ta sẽ thấy chất lượng mô hình, độ phân giải, khả năng kiểm soát ngữ nghĩa và tính khả dụng đã được cải thiện đáng kể, mở ra một cuộc cách mạng trong lĩnh vực AI sáng tạo.
Mạng đối kháng sinh thành (GANs): Khởi đầu một cuộc cách mạng (2014)
- Được giới thiệu bởi Ian Goodfellow và cộng sự vào năm 2014.
- Máy sinh thành và máy phân loại trong vòng lặp đào tạo đối kháng.
- Các mô hình ban đầu tạo ra hình ảnh độ phân giải thấp (ví dụ: 32x32).
- DCGAN (2015) giới thiệu kiến trúc convolutional.
- Progressive GAN (2017) cho phép tổng hợp hình ảnh độ phân giải cao (1024×1024).
- BigGAN (2018): Mạng GAN điều kiện theo lớp được đào tạo trên ImageNet.
- Hạn chế chính: sụp đổ chế độ, sự không ổn định trong đào tạo.
Mạng tự động mã hóa biến thể (VAEs) và mô hình tự hồi quy cấp pixel (2014–2016)
- Mạng tự động mã hóa biến thể (VAEs) của Kingma & Welling (2013): không gian tiềm ẩn xác suất + thủ thuật tái tham số hóa.
- Ưu điểm: đào tạo ổn định, không gian tiềm ẩn có thể giải thích được.
- Nhược điểm: hình ảnh đầu ra mờ.
- PixelRNN / PixelCNN (2016): mô hình hóa pixel tự hồi quy.
- Tốc độ sinh ra cực kỳ chậm nhưng ước lượng mật độ tốt.
StyleGAN và các cải tiến của GAN (2017–2019)
- StyleGAN của Karras et al. (2018–2019):
- Không gian tiềm ẩn trung gian + kiểm soát phong cách theo từng lớp.
- Phân tách không giám sát các thuộc tính ngữ nghĩa (ví dụ: tư thế, nụ cười).
- Tổng hợp khuôn mặt có độ chân thực cao 1024×1024.
- StyleGAN2 (2020): cải thiện chất lượng hình ảnh và độ ổn định trong quá trình đào tạo.
- Các cải tiến khác: Wasserstein GAN (WGAN), WGAN-GP.
VQ-VAE và Transformers (2017–2021)
- VQ-VAE (2017): hình ảnh → token rời rạc thông qua bộ mã hóa.
- Cho phép sử dụng transformers để mô hình hóa chuỗi hình ảnh.
- VQ-VAE-2 (2019): các biến ẩn phân cấp đa cấp.
- Image GPT (2020): mô hình tự hồi quy Transformers trên chuỗi pixel.
- DALL·E (2021) của OpenAI:
- Mô hình biến đổi kiểu GPT trên các token văn bản và hình ảnh.
- Tạo ra hình ảnh 256×256 từ các lời nhắc ngôn ngữ tự nhiên.
VQ-GAN: Kết hợp Transformers và Học đối kháng (2021)
- VQ-GAN (2021): kết hợp VQ-VAE và hàm mất mát GAN.
- Bộ giải mã tạo ra hình ảnh sắc nét hơn so với VQ-VAE tiêu chuẩn.
- Được sử dụng trong các quy trình tạo hình ảnh hướng dẫn bởi CLIP.
Mô hình khuếch tán dẫn đầu (2020–2022)
- DDPM (Ho et al., 2020): Mô hình khuếch tán xác suất loại bỏ nhiễu.
- Bắt đầu từ nhiễu → loại bỏ nhiễu từng bước.
- Độ trung thực hình ảnh cao, không có sự không ổn định trong đào tạo đối kháng.
- Mô hình khuếch tán được hướng dẫn bởi bộ phân loại và kiến trúc được cải tiến (Nichol & Dhariwal, 2021).
- Đầu ra ổn định và đa dạng hơn so với GANs.
Sự bùng nổ của công nghệ tạo hình ảnh từ văn bản (2021–2022)
DALL·E 2 (2022)
- Sinh hình ảnh dựa trên mô hình khuếch tán + hướng dẫn bằng CLIP.
- Độ phân giải 1024×1024, khả năng sửa chữa hình ảnh, biến thể lời nhắc.
- Bước nhảy vọt đáng kể về độ chân thực và kiểm soát ngữ nghĩa.
Google Imagen (2022)
- Sử dụng mô hình ngôn ngữ T5 để cải thiện khả năng hiểu văn bản.
- Kiến trúc mô hình khuếch tán tiềm ẩn.
- Đạt điểm cao nhất trong các bài kiểm tra ưa thích của con người.
Midjourney (2022–)
- Phòng thí nghiệm nghiên cứu độc lập.
- Các thế hệ được thiết kế nghệ thuật, rất phổ biến trong các ngành công nghiệp sáng tạo.
Stable Diffusion (2022)
- Mô hình khuếch tán tiềm ẩn mã nguồn mở do CompVis + Stability AI phát triển.
- Hoạt động trên GPU dành cho người dùng cá nhân (~2.4GB VRAM).
- Cung cấp truy cập phổ cập đến việc tạo hình ảnh từ văn bản chất lượng cao.
Xu hướng chính và tiến bộ
Chất lượng hình ảnh & Độ phân giải
- Từ các khối mờ 32×32 (2014) → Độ chân thực như ảnh thật 1024×1024 (2022).
- GANs: bước nhảy vọt đầu tiên về độ chân thực.
- Mô hình khuếch tán: đa dạng hơn + sắc nét hơn.
Kiểm soát ngữ nghĩa
- GANs: chỉnh sửa không gian tiềm ẩn và nhãn lớp.
- DALL·E/Imagen: điều kiện hóa toàn văn bản.
- Phục hồi, chỉnh sửa và sinh thành thành phần.
Truy cập
- Từ môi trường phòng thí nghiệm đến sử dụng toàn cầu:
- Công cụ nguồn mở (ví dụ: Stable Diffusion).
- Ứng dụng web và API.
- Các nhà sáng tạo và người không biết lập trình hiện đang tích cực sử dụng trí tuệ nhân tạo tạo sinh.
Kết luận
Từ mô hình GAN vào năm 2014 đến công nghệ khuếch tán văn bản sang hình ảnh mã nguồn mở vào năm 2022, việc tạo hình ảnh bằng trí tuệ nhân tạo (AI) đã chuyển đổi từ một hiện tượng học thuật thành một công cụ sáng tạo phổ biến. Lĩnh vực này đã phát triển qua các giai đoạn:
- Thực tế dựa trên GAN,
- Hiểu biết ngữ nghĩa do Transformer điều khiển,
- Mô hình khuếch tán cho phép chất lượng hình ảnh và khả năng kiểm soát chưa từng có.
Các hướng phát triển trong tương lai bao gồm tạo video, tạo tài sản 3D và tích hợp chặt chẽ hơn với các hệ thống ngôn ngữ và đa phương thức. Tốc độ đổi mới cho thấy thế hệ tiếp theo của trí tuệ nhân tạo (AI) hình ảnh sẽ còn immersive, tương tác và dễ tiếp cận hơn nữa.
