OpenAI กำลังผสานความสามารถในการสร้างภาพเข้ากับ ChatGPT โดยเริ่มตั้งแต่วันนี้ภายใต้ฟีเจอร์ที่เรียกว่า “Images in ChatGPT” ซึ่งทำให้ผู้ใช้สามารถสร้างภาพโดยใช้ GPT-4o ได้โดยตรงภายใน ChatGPT
ทายา คริสเตียนสัน (Taya Christianson) โฆษกของ OpenAI กล่าวว่าขีดจำกัดการใช้งานของผู้ใช้ฟรีจะเหมือนกับ DALL-E อย่างไรก็ตาม เธอไม่ได้เปิดเผยตัวเลขที่แน่ชัด และเสริมว่าขีดจำกัดเหล่านี้อาจมีการเปลี่ยนแปลงตามความต้องการของผู้ใช้ ก่อนหน้านี้ ตามข้อมูลจาก ChatGPT FAQ ผู้ใช้แบบฟรีสามารถสร้างภาพได้ สามภาพต่อวันโดยใช้ DALL·E 3
สำหรับอนาคตของ DALL-E นั้น คริสเตียนสัน กล่าวว่า “แฟน ๆ ยังคงสามารถเข้าถึงได้ผ่าน GPT แบบกำหนดเอง”
กาเบรียล โกห์ (Gabriel Goh) หัวหน้าฝ่ายวิจัยของ OpenAI กล่าวว่า “โมเดลนี้เป็นก้าวกระโดดเหนือกว่ารุ่นก่อน ๆ” พร้อมเสริมว่าทีมได้นำพื้นฐานของ GPT-4o ซึ่งเป็น “Omnimodal” หรือโมเดลที่สามารถสร้างข้อมูลได้ทุกประเภท เช่น ข้อความ ภาพ เสียง และวิดีโอ มาใช้พัฒนาฟีเจอร์นี้
อย่างไรก็ตาม GPT-4o สามารถจับคู่ลักษณะและวัตถุได้อย่างแม่นยำถึง 15-20 ชิ้น โดยไม่มีความสับสน ซึ่งถือเป็นพัฒนาการสำคัญในด้านความถูกต้องและความน่าเชื่อถือของการสร้างภาพด้วย AI
ผู้ใช้จะสังเกตได้ถึง การพัฒนาในการเรนเดอร์ข้อความ ซึ่งช่วยให้ AI สร้างข้อความที่ต่อเนื่องและไม่มีข้อผิดพลาดบนภาพได้ง่ายขึ้น (ในเครื่องมือเดิม ข้อความมักผิดเพี้ยนได้ง่าย)
กาเบรียล โกห์ กล่าวต่อไปว่าการทำให้ AI แสดงข้อความได้อย่างถูกต้องเป็นความท้าทายสำคัญ หากชื่อเรื่องหรือองค์ประกอบข้อความมีคำผิด อาจทำให้ภาพทั้งหมดใช้งานไม่ได้
“นี่เป็นกระบวนการที่ต้องปรับปรุงซ้ำไปมาหลายเดือนกว่าจะได้ผลลัพธ์ที่ดี” โกห์กล่าว
แม้ว่ายังไม่สมบูรณ์แบบ แต่ตอนนี้คุณภาพของข้อความที่สร้างขึ้นอยู่ในระดับที่ใช้งานได้อย่างต่อเนื่อง โดยข้อผิดพลาดส่วนใหญ่จะเกิดกับข้อความที่มีขนาดเล็กมาก
“เราใช้เวลาหลายเดือนในการปรับแต่งรายละเอียดเล็ก ๆ น้อย ๆ จนออกมาดีขึ้น”
ระบบนี้ใช้ แนวทางแบบ Autoregressive ซึ่งสร้างภาพทีละส่วนจากซ้ายไปขวา และจากบนลงล่าง คล้ายกับการเขียนข้อความ แตกต่างจากเทคนิค Diffusion Model ที่เครื่องมือสร้างภาพส่วนใหญ่อย่าง DALL-E ใช้ ซึ่งจะสร้างภาพทั้งหมดพร้อมกัน
โกห์คาดว่า ความแตกต่างทางเทคนิคนี้อาจเป็นเหตุผลที่ทำให้ Images in ChatGPT มีความแม่นยำในการเรนเดอร์ข้อความและจับคู่คุณลักษณะต่าง ๆ ได้ดีขึ้น
ที่มา Theverge