ยุคแห่งการเรียนรู้เชิงลึกในการสร้างภาพด้วยปัญญาประดิษฐ์ (2014–ปัจจุบัน)

ก.ย. 29, 2025

บทนำ

การสร้างภาพด้วยปัญญาประดิษฐ์ (AI) สมัยใหม่มีรากฐานมาจากการค้นพบที่สำคัญในด้านการเรียนรู้เชิงลึก (deep learning) ในช่วงกลางทศวรรษ 2010 เริ่มตั้งแต่ประมาณปี 2014 นักวิจัยได้เริ่มพัฒนาโครงข่ายประสาทเทียมที่สามารถ สร้าง ภาพใหม่ทั้งหมดได้ แทนที่จะเพียงแค่จดจำภาพเหล่านั้นเท่านั้น แบบจำลองเชิงสร้างเชิงลึกในยุคแรก ๆ สามารถสร้างผลลัพธ์ได้เพียงภาพเล็ก ๆ ที่เบลอ แต่การก้าวหน้าอย่างรวดเร็วในเวลาต่อมาได้ทำให้สามารถสร้างภาพที่มีความสมจริงสูงและละเอียดสูงได้ตามต้องการ

บทความนี้ติดตามประวัติศาสตร์ทางวิชาการของการสร้างภาพด้วยปัญญาประดิษฐ์ในยุคการเรียนรู้เชิงลึก – ตั้งแต่การเกิดขึ้นของเครือข่ายประสาทเทียมแบบแข่งขันเชิงสร้าง (Generative Adversarial Networks หรือ GANs) ในปี 2014 จนถึงแบบจำลองการกระจายตัวที่ทรงพลังในปัจจุบันซึ่งสามารถวาดภาพจากข้อความที่เรียบง่ายได้ ตลอดเส้นทางนี้ เราจะเห็นการพัฒนาคุณภาพของแบบจำลอง ความละเอียด การควบคุมเชิงความหมาย และการเข้าถึงได้ที่ดีขึ้นอย่างมาก ซึ่งได้เปิดประตูสู่การปฏิวัติในด้านปัญญาประดิษฐ์เชิงสร้างสรรค์

GANs: เครือข่ายประสาทเทียมเชิงแข่งขันเชิงสร้างสรรค์ จุดประกายการปฏิวัติ (2014)

  • แนะนำโดย Ian Goodfellow et al. ในปี 2014.
  • ตัวสร้างและตัวแยกแยะในลูปการฝึกอบรมเชิงแข่งขัน.
  • รุ่นแรกผลิตภาพความละเอียดต่ำ (เช่น 32x32)
  • DCGAN (2015) แนะนำสถาปัตยกรรมแบบคอนโวลูชัน
  • Progressive GAN (2017) ทำให้สามารถสังเคราะห์ภาพความละเอียดสูง (1024×1024)
  • BigGAN (2018): GAN แบบมีเงื่อนไขตามคลาสที่ฝึกบน ImageNet.
  • ข้อจำกัดสำคัญ: การล่มของโหมด, ความไม่เสถียรในการฝึก.

VAEs และโมเดลการถดถอยอัตโนมัติระดับพิกเซล (2014–2016)

  • Variational Autoencoders (VAEs) โดย Kingma & Welling (2013): พื้นที่แฝงเชิงความน่าจะเป็น + เทคนิคการปรับพารามิเตอร์ใหม่
  • ข้อดี: การฝึกอบรมที่เสถียร, พื้นที่แฝงที่สามารถตีความได้
  • ข้อเสีย: ผลลัพธ์ของภาพไม่ชัดเจน
  • PixelRNN / PixelCNN (2016): การสร้างแบบจำลองพิกเซลแบบย้อนกลับอัตโนมัติ
  • การสร้างภาพช้ามากแต่การประมาณความหนาแน่นดี

StyleGAN และการปรับปรุง GAN (2017–2019)

  • StyleGAN โดย Karras et al. (2018–2019):
  • พื้นที่แฝงระดับกลาง + การควบคุมสไตล์ต่อชั้น
  • การแยกคุณลักษณะเชิงความหมายโดยไม่ใช้ข้อมูลป้อนกลับ (เช่น ท่าทาง, รอยยิ้ม)
  • การสังเคราะห์ใบหน้าที่มีความสมจริงสูง 1024×1024
  • StyleGAN2 (2020): ปรับปรุงคุณภาพของภาพและเสถียรภาพในการฝึกฝน
  • นวัตกรรมอื่นๆ: Wasserstein GAN (WGAN), WGAN-GP

VQ-VAE และ Transformers (2017–2021)

  • VQ-VAE (2017): ภาพ → โทเค็นแบบไม่ต่อเนื่องผ่านสมุดรหัส
  • อนุญาตให้ใช้ทรานส์ฟอร์เมอร์ในการสร้างแบบจำลองลำดับภาพ
  • VQ-VAE-2 (2019): แผนผังเชิงลำดับหลายระดับ
  • Image GPT (2020): ตัวแปลงย้อนกลับอัตโนมัติบนลำดับพิกเซล
  • DALL·E (2021) โดย OpenAI:
  • ตัวแปลงสไตล์ GPT เหนือโทเค็นข้อความและรูปภาพ
  • สร้างภาพขนาด 256×256 จากข้อความธรรมชาติ

VQ-GAN: การผสมผสาน Transformers และการเรียนรู้แบบแข่งขัน (2021)

  • VQ-GAN (2021): ผสาน VQ-VAE + GAN loss.
  • ตัวถอดรหัสให้ผลลัพธ์ภาพที่คมชัดกว่า VQ-VAE แบบดั้งเดิม
  • ใช้ในกระบวนการสร้างภาพตามคำแนะนำของ CLIP

แบบจำลองการแพร่กระจายเป็นผู้นำ (2020–2022)

  • DDPM (Ho et al., 2020): แบบจำลองการแพร่กระจายเชิงความน่าจะเป็นแบบลดสัญญาณรบกวน
  • เริ่มต้นจากสัญญาณรบกวน → ลดสัญญาณรบกวนทีละขั้นตอน
  • ความเที่ยงตรงของภาพสูง, ไม่มีความไม่เสถียรในการฝึกฝนแบบแข่งขัน
  • การแพร่กระจายที่นำโดยตัวจำแนก และสถาปัตยกรรมที่ได้รับการปรับปรุง (Nichol & Dhariwal, 2021)
  • ผลลัพธ์ที่เสถียรและหลากหลายมากกว่า GANs

การเติบโตของการสร้างภาพจากข้อความ (2021–2022)

DALL·E 2 (2022)

  • การสร้างแบบกระจาย + คำแนะนำ CLIP.
  • ความละเอียด 1024×1024, การเติมภาพ, การเปลี่ยนแปลงคำสั่ง.
  • ก้าวกระโดดครั้งใหญ่ในด้านความสมจริงและความควบคุมเชิงความหมาย.

Google Imagen (2022)

  • ใช้โมเดลภาษา T5 เพื่อความเข้าใจข้อความที่ดีขึ้น
  • สถาปัตยกรรมโมเดลการแพร่กระจายแฝง
  • ชนะเกณฑ์มาตรฐานความชอบของมนุษย์

Midjourney (2022–)

  • ห้องปฏิบัติการวิจัยอิสระ
  • การสร้างผลงานที่มีสไตล์ทางศิลปะอย่างโดดเด่น เป็นที่นิยมอย่างมากในอุตสาหกรรมสร้างสรรค์

Stable Diffusion (2022)

  • โมเดลการแพร่กระจายแฝงแบบโอเพนซอร์สโดย CompVis + Stability AI.
  • ทำงานบน GPU สำหรับผู้บริโภค (~2.4GB VRAM).
  • เปิดโอกาสให้ทุกคนเข้าถึงการสร้างภาพจากข้อความคุณภาพสูง.

แนวโน้มสำคัญและความก้าวหน้า

คุณภาพและความละเอียดของภาพ

  • จากจุดเบลอ 32×32 (2014) → ความสมจริงระดับภาพถ่าย 1024×1024 (2022).
  • GANs: ก้าวกระโดดครั้งสำคัญในด้านความสมจริง.
  • แบบจำลองการแพร่กระจาย: ความหลากหลายที่ดีขึ้น + ความคมชัด

การควบคุมเชิงความหมาย

  • GANs: การแก้ไขพื้นที่แฝงและป้ายกำกับประเภท
  • DALL·E/Imagen: การปรับเงื่อนไขข้อความเต็ม
  • การเติมภาพ, การแก้ไข และการสร้างองค์ประกอบ

การเข้าถึง

  • จากการใช้งานในห้องปฏิบัติการสู่การใช้งานทั่วโลก:
  • เครื่องมือโอเพนซอร์ส (เช่น Stable Diffusion)
  • เว็บแอปพลิเคชันและ API
  • ผู้สร้างและผู้ที่ไม่ใช่โปรแกรมเมอร์ใช้งาน AI เชิงสร้างสรรค์อย่างแข็งขัน

บทสรุป

จาก GANs ในปี 2014 สู่การแพร่กระจายข้อความเป็นภาพแบบโอเพนซอร์สในปี 2022 การสร้างภาพด้วย AI ได้เปลี่ยนแปลงจากสิ่งที่น่าสนใจทางวิชาการไปเป็นเครื่องมือสร้างสรรค์ที่พบเห็นได้ทั่วไป การพัฒนาในสาขานี้เกิดขึ้นผ่าน:

  • ความสมจริงบนพื้นฐาน GAN,
  • การทำความเข้าใจเชิงความหมายด้วย Transformer,
  • โมเดลการแพร่กระจายที่ช่วยให้ได้คุณภาพและควบคุมภาพในระดับที่ไม่เคยมีมาก่อน

ทิศทางในอนาคตประกอบด้วยการสร้างวิดีโอ การสร้างสินทรัพย์ 3 มิติ และการผสานรวมที่แน่นแฟ้นยิ่งขึ้นกับระบบภาษาและระบบหลายรูปแบบ ความเร็วของการนวัตกรรมบ่งชี้ว่า AI ด้านภาพรุ่นต่อไปจะมีความสมจริงยิ่งขึ้น สามารถโต้ตอบได้มากขึ้น และสามารถเข้าถึงได้มากขึ้น