นายจิงเหริน โซว ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี ของอาลีบาบา คลาวด์ ธุรกิจด้านเทคโนโลยีดิจิทัล และหน่วยงานหลักด้านอินเทลลิเจนซ์ของอาลีบาบา กรุ๊ป กล่าวว่า “Tongyi Wanxiang เป็นตัวแทนของอีกหนึ่งความสำเร็จครั้งสำคัญในการสรรหาโมเดล Generative AI ที่ล้ำหน้า เช่นเดียวกับที่เรายังเดินหน้าสำรวจเทคโนโลยีที่เป็นการเปลี่ยนกระบวนทัศน์ต่าง ๆ เพื่อส่งเสริมให้ธุรกิจและชุมชนสามารถนำพลังแห่งความคิดสร้างสรรค์ และความสามารถในการสร้างผลงานออกมาใช้งานได้มากขึ้น”
"การเปิดตัว Tongyi Wanxiang ('Wanxiang' หมายถึง 'ภาพนับหมื่น ๆ ภาพ) จะช่วยให้การสร้างรูปภาพด้วย Generative AI คุณภาพสูงได้รับการใช้งานอย่างกว้างขวางมากขึ้น และช่วยสนับสนุนการพัฒนาศิลปะที่เป็น innovative AI และการแสดงออกที่สร้างสรรค์ของธุรกิจในหลากหลายอุตสาหกรรม เช่น อีคอมเมิร์ซ เกม การออกแบบ และ การโฆษณา"
โมเดล Generative AI นี้สามารถจัดการงานต่าง ๆ ได้อย่างเชี่ยวชาญ สามารถตอบสนองต่อการป้อนข้อความ (text prompts) ภาษาจีนและภาษาอังกฤษ เพื่อสร้างรูปภาพที่เก็บรายละเอียดได้มากและหลากหลายสไตล์ ไม่ว่าจะเป็นภาพที่ใช้สีน้ำ สีน้ำมัน และจิตกรรมจีน ไปจนถึงแอนิเมชั่น ภาพสเก็ตช์ ภาพประกอบที่เน้นความเรียบง่าย (flat illustration) และการ์ตูนสามมิติ
นอกจากนี้โมเดลยังสามารถแปลงรูปภาพใดก็ได้ให้เป็นรูปภาพใหม่ที่มีสไตล์คล้ายกัน และกำหนดสไตล์ของรูปภาพผ่านการทรานส์เฟอร์สไตล์ ซึ่งจะคงเนื้อหาของรูปภาพต้นฉบับไว้ในขณะที่ใช้การมองเห็นสไตล์ของอีกภาพหนึ่ง
โมเดลนี้ใช้ประโยชน์จากการฝึกและเรียนรู้เนื้อหาจากแหล่งที่มาหลายภาษา ที่ขับเคลื่อนโดยเทคโนโลยีการจัดเตรียมด้านความรู้, วิชวล AI และการประมวลผลภาษาธรรมชาติ (NLP) ที่ล้ำหน้าของอาลีบาบา คลาวด์ จึงสามารถเข้าใจความหมายของคำได้ดีมาก ดังนั้นจึงสามารถสร้างรูปภาพได้ถูกต้องและตรงตามบริบทที่ป้อนเข้ามายังโมเดลมากขึ้น
นอกจากนี้ ด้วยการเพิ่มประสิทธิภาพให้กับกระบวนการกระจายที่มีความละเอียดสูงตามอัตราส่วน signal-to-noise โมเดลนี้สามารถสร้างความสมดุลระหว่างความแม่นยำขององค์ประกอบและความคมชัดของรายละเอียด ในขณะที่เพิ่มความสามารถในการสร้างรูปภาพที่มีคอนทราสต์สูง สวยงามตระการตา และมีพื้นหลังที่สะอาดตา
Tongyi Wanxiang พัฒนาโดยใช้ Composer ซึ่งเป็นโมเดลขนาดใหญ่ที่อาลีบาบา คลาวด์ เป็นเจ้าของ ช่วยให้สามารถควบคุมเอาต์พุตขั้นสุดท้ายของรูปภาพได้เป็นอย่างดี เช่น การจัดวางเชิงพื้นที่ (spatial layout) และกลุ่มเครื่องมือที่ใช้กำหนดคุณสมบัติต่าง ๆ ของรูปภาพ (palette) ในขณะที่ยังคงรักษาคุณภาพการผสานรวมรูปภาพและความคิดสร้างสรรค์ไว้ได้