บทนำ
การสร้างภาพด้วยปัญญาประดิษฐ์ (AI) สมัยใหม่มีรากฐานมาจากการค้นพบที่สำคัญในด้านการเรียนรู้เชิงลึก (deep learning) ในช่วงกลางทศวรรษ 2010 เริ่มตั้งแต่ประมาณปี 2014 นักวิจัยได้เริ่มพัฒนาโครงข่ายประสาทเทียมที่สามารถ สร้าง ภาพใหม่ทั้งหมดได้ แทนที่จะเพียงแค่จดจำภาพเหล่านั้นเท่านั้น แบบจำลองเชิงสร้างเชิงลึกในยุคแรก ๆ สามารถสร้างผลลัพธ์ได้เพียงภาพเล็ก ๆ ที่เบลอ แต่การก้าวหน้าอย่างรวดเร็วในเวลาต่อมาได้ทำให้สามารถสร้างภาพที่มีความสมจริงสูงและละเอียดสูงได้ตามต้องการ
บทความนี้ติดตามประวัติศาสตร์ทางวิชาการของการสร้างภาพด้วยปัญญาประดิษฐ์ในยุคการเรียนรู้เชิงลึก – ตั้งแต่การเกิดขึ้นของเครือข่ายประสาทเทียมแบบแข่งขันเชิงสร้าง (Generative Adversarial Networks หรือ GANs) ในปี 2014 จนถึงแบบจำลองการกระจายตัวที่ทรงพลังในปัจจุบันซึ่งสามารถวาดภาพจากข้อความที่เรียบง่ายได้ ตลอดเส้นทางนี้ เราจะเห็นการพัฒนาคุณภาพของแบบจำลอง ความละเอียด การควบคุมเชิงความหมาย และการเข้าถึงได้ที่ดีขึ้นอย่างมาก ซึ่งได้เปิดประตูสู่การปฏิวัติในด้านปัญญาประดิษฐ์เชิงสร้างสรรค์
GANs: เครือข่ายประสาทเทียมเชิงแข่งขันเชิงสร้างสรรค์ จุดประกายการปฏิวัติ (2014)
- แนะนำโดย Ian Goodfellow et al. ในปี 2014.
- ตัวสร้างและตัวแยกแยะในลูปการฝึกอบรมเชิงแข่งขัน.
- รุ่นแรกผลิตภาพความละเอียดต่ำ (เช่น 32x32)
- DCGAN (2015) แนะนำสถาปัตยกรรมแบบคอนโวลูชัน
- Progressive GAN (2017) ทำให้สามารถสังเคราะห์ภาพความละเอียดสูง (1024×1024)
- BigGAN (2018): GAN แบบมีเงื่อนไขตามคลาสที่ฝึกบน ImageNet.
- ข้อจำกัดสำคัญ: การล่มของโหมด, ความไม่เสถียรในการฝึก.
VAEs และโมเดลการถดถอยอัตโนมัติระดับพิกเซล (2014–2016)
- Variational Autoencoders (VAEs) โดย Kingma & Welling (2013): พื้นที่แฝงเชิงความน่าจะเป็น + เทคนิคการปรับพารามิเตอร์ใหม่
- ข้อดี: การฝึกอบรมที่เสถียร, พื้นที่แฝงที่สามารถตีความได้
- ข้อเสีย: ผลลัพธ์ของภาพไม่ชัดเจน
- PixelRNN / PixelCNN (2016): การสร้างแบบจำลองพิกเซลแบบย้อนกลับอัตโนมัติ
- การสร้างภาพช้ามากแต่การประมาณความหนาแน่นดี
StyleGAN และการปรับปรุง GAN (2017–2019)
- StyleGAN โดย Karras et al. (2018–2019):
- พื้นที่แฝงระดับกลาง + การควบคุมสไตล์ต่อชั้น
- การแยกคุณลักษณะเชิงความหมายโดยไม่ใช้ข้อมูลป้อนกลับ (เช่น ท่าทาง, รอยยิ้ม)
- การสังเคราะห์ใบหน้าที่มีความสมจริงสูง 1024×1024
- StyleGAN2 (2020): ปรับปรุงคุณภาพของภาพและเสถียรภาพในการฝึกฝน
- นวัตกรรมอื่นๆ: Wasserstein GAN (WGAN), WGAN-GP
VQ-VAE และ Transformers (2017–2021)
- VQ-VAE (2017): ภาพ → โทเค็นแบบไม่ต่อเนื่องผ่านสมุดรหัส
- อนุญาตให้ใช้ทรานส์ฟอร์เมอร์ในการสร้างแบบจำลองลำดับภาพ
- VQ-VAE-2 (2019): แผนผังเชิงลำดับหลายระดับ
- Image GPT (2020): ตัวแปลงย้อนกลับอัตโนมัติบนลำดับพิกเซล
- DALL·E (2021) โดย OpenAI:
- ตัวแปลงสไตล์ GPT เหนือโทเค็นข้อความและรูปภาพ
- สร้างภาพขนาด 256×256 จากข้อความธรรมชาติ
VQ-GAN: การผสมผสาน Transformers และการเรียนรู้แบบแข่งขัน (2021)
- VQ-GAN (2021): ผสาน VQ-VAE + GAN loss.
- ตัวถอดรหัสให้ผลลัพธ์ภาพที่คมชัดกว่า VQ-VAE แบบดั้งเดิม
- ใช้ในกระบวนการสร้างภาพตามคำแนะนำของ CLIP
แบบจำลองการแพร่กระจายเป็นผู้นำ (2020–2022)
- DDPM (Ho et al., 2020): แบบจำลองการแพร่กระจายเชิงความน่าจะเป็นแบบลดสัญญาณรบกวน
- เริ่มต้นจากสัญญาณรบกวน → ลดสัญญาณรบกวนทีละขั้นตอน
- ความเที่ยงตรงของภาพสูง, ไม่มีความไม่เสถียรในการฝึกฝนแบบแข่งขัน
- การแพร่กระจายที่นำโดยตัวจำแนก และสถาปัตยกรรมที่ได้รับการปรับปรุง (Nichol & Dhariwal, 2021)
- ผลลัพธ์ที่เสถียรและหลากหลายมากกว่า GANs
การเติบโตของการสร้างภาพจากข้อความ (2021–2022)
DALL·E 2 (2022)
- การสร้างแบบกระจาย + คำแนะนำ CLIP.
- ความละเอียด 1024×1024, การเติมภาพ, การเปลี่ยนแปลงคำสั่ง.
- ก้าวกระโดดครั้งใหญ่ในด้านความสมจริงและความควบคุมเชิงความหมาย.
Google Imagen (2022)
- ใช้โมเดลภาษา T5 เพื่อความเข้าใจข้อความที่ดีขึ้น
- สถาปัตยกรรมโมเดลการแพร่กระจายแฝง
- ชนะเกณฑ์มาตรฐานความชอบของมนุษย์
Midjourney (2022–)
- ห้องปฏิบัติการวิจัยอิสระ
- การสร้างผลงานที่มีสไตล์ทางศิลปะอย่างโดดเด่น เป็นที่นิยมอย่างมากในอุตสาหกรรมสร้างสรรค์
Stable Diffusion (2022)
- โมเดลการแพร่กระจายแฝงแบบโอเพนซอร์สโดย CompVis + Stability AI.
- ทำงานบน GPU สำหรับผู้บริโภค (~2.4GB VRAM).
- เปิดโอกาสให้ทุกคนเข้าถึงการสร้างภาพจากข้อความคุณภาพสูง.
แนวโน้มสำคัญและความก้าวหน้า
คุณภาพและความละเอียดของภาพ
- จากจุดเบลอ 32×32 (2014) → ความสมจริงระดับภาพถ่าย 1024×1024 (2022).
- GANs: ก้าวกระโดดครั้งสำคัญในด้านความสมจริง.
- แบบจำลองการแพร่กระจาย: ความหลากหลายที่ดีขึ้น + ความคมชัด
การควบคุมเชิงความหมาย
- GANs: การแก้ไขพื้นที่แฝงและป้ายกำกับประเภท
- DALL·E/Imagen: การปรับเงื่อนไขข้อความเต็ม
- การเติมภาพ, การแก้ไข และการสร้างองค์ประกอบ
การเข้าถึง
- จากการใช้งานในห้องปฏิบัติการสู่การใช้งานทั่วโลก:
- เครื่องมือโอเพนซอร์ส (เช่น Stable Diffusion)
- เว็บแอปพลิเคชันและ API
- ผู้สร้างและผู้ที่ไม่ใช่โปรแกรมเมอร์ใช้งาน AI เชิงสร้างสรรค์อย่างแข็งขัน
บทสรุป
จาก GANs ในปี 2014 สู่การแพร่กระจายข้อความเป็นภาพแบบโอเพนซอร์สในปี 2022 การสร้างภาพด้วย AI ได้เปลี่ยนแปลงจากสิ่งที่น่าสนใจทางวิชาการไปเป็นเครื่องมือสร้างสรรค์ที่พบเห็นได้ทั่วไป การพัฒนาในสาขานี้เกิดขึ้นผ่าน:
- ความสมจริงบนพื้นฐาน GAN,
- การทำความเข้าใจเชิงความหมายด้วย Transformer,
- โมเดลการแพร่กระจายที่ช่วยให้ได้คุณภาพและควบคุมภาพในระดับที่ไม่เคยมีมาก่อน
ทิศทางในอนาคตประกอบด้วยการสร้างวิดีโอ การสร้างสินทรัพย์ 3 มิติ และการผสานรวมที่แน่นแฟ้นยิ่งขึ้นกับระบบภาษาและระบบหลายรูปแบบ ความเร็วของการนวัตกรรมบ่งชี้ว่า AI ด้านภาพรุ่นต่อไปจะมีความสมจริงยิ่งขึ้น สามารถโต้ตอบได้มากขึ้น และสามารถเข้าถึงได้มากขึ้น
