จู่ๆ ท่านเซอร์ Demis Hassabis แห่ง DeepMind มาออกรายการ Release Notes ของกูเกิลเอง ผมฟังสัมภาษณ์ Demis ตามสื่อต่างๆ มาหลายครั้ง เขียนถึงก็หลายที แต่เพิ่งเคยเห็นเขามาออกรายการของกูเกิลเองเหมือนกัน
การพูดของ Demis รอบนี้เหมือนเป็นการอัพเดตความคืบหน้าของงาน AI ฝั่งกูเกิล ต่อจาก Google I/O 2025 ซึ่งเอาเข้าจริงก็ผ่านมาแค่ 3 เดือนเท่านั้นเอง (แต่รู้สึกว่ามันนานมากในโลก AI ที่ออกของใหม่กันทุกวัน)
ผมนั่งฟัง Demis ตอนขับรถแบบไม่คาดหวังอะไรมาก (รถติดหาอะไรฟังแก้เบื่อ) แต่พบว่ามีประเด็นภาพใหญ่ที่น่าสนใจมากหลายเรื่องเลย
1. โมเดล AI ตัวใหม่ มีเยอะเกินไปไหม?
ถ้าใครติดตามผลงานของ Google DeepMind ในปี 2025 เป็นต้นมา หลังกูเกิลตั้งตัวได้ จะเห็นว่ามีผลงานออกมาถี่ๆ รัวๆ มาก จนตอนนี้ผมต้องจั่วหัวในข่าว Blognone ว่า “ข่าวโมเดลใหม่ DeepMind ประจำวัน” ไปเรียบร้อยแล้ว
แน่นอนว่าข่าว AI ที่อัพเดตทุกลมหายใจ ส่งผลให้คนเริ่มรู้สึกว่า “ตามไม่ทันแล้ว” และอาจมีปฏิกิริยาแตกต่างกันไป เช่น บางคนบอกว่าเลิกตามแล้ว บางคนเครียดว่าจะตามโลกทันไหม ชนชั้นกลางจะล่มสลายเพราะ AI ไหม ฯลฯ แต่ในเชิงธุรกิจ ทุกคนคงเข้าใจกันดีว่า “หยุดเมื่อไรคือแพ้” ซึ่งจังหวะของ DeepMind ตอนนี้คือมารัวๆ อย่างสม่ำเสมอ มาราธอนด้วยความเร็วคิปโชเก้เลยทีเดียว
เรื่องนี้ Demis ยืนยันเองด้วยประโยคนี้ ว่าตัวเขาเองยังตามไม่ค่อยทันเลย
Seems to be things coming out every day. We’re pretty much releasing something every day. It’s hard to keep up, even internally, and the field as a whole
2. Jagged Intelligence
คำนี้เป็นคำใหม่ที่ผมเพิ่งเคยฟัง และคิดว่า Demis แกเรียกของแกเองด้วยความบังเอิญ แต่คิดว่าเป็นภาพสะท้อนสถานการณ์ของวงการ AI ช่วงนี้ได้ดี
Demis พูดถึงความก้าวหน้าของโมเดลในยุคปัจจุบัน ที่ Gemini ไปสอบคณิตศาสตร์โอลิมปิกได้ระดับเหรียญทองแล้ว (ผิด 1 ข้อจากข้อสอบโคตรยาก 5 ข้อ) แต่ในอีกด้าน เรายังเห็นโมเดลทำอะไรผิดแบบโง่ๆ อยู่เรื่อยๆ ชนิดว่าเด็กประถมยังตอบได้ดีกว่า ตัวอย่างคลาสสิกของวงการ คือ ให้โมเดลนับตัว r ในคำว่า strawberry ซึ่งมักนับผิดเสมอ
Demis เรียกสภาพการณ์นี้ว่า jagged intelligence หรือ uneven intelligence เป็นปัญหาเรื่องความสม่ำเสมอ (consistency)
เขามองว่าโมเดลในปัจจุบันยังขาดความสามารถเรื่องการให้เหตุผล (reasoning), ความทรงจำ (memory), การวางแผน (planning) ซึ่งเรายังต้องการนวัตกรรมในมิติเหล่านี้อีกหน่อย นอกเหนือจากการ scaling โมเดลอย่างเดียว
3. Evals
Demis ยังพูดถึงมิติเรื่องการประเมินผล (evaluation) ว่าเบนช์มาร์คของโลก AI ในปัจจุบันมันเริ่มจะอิ่มตัว (saturated) ตัวอย่างคือ Gemini ทำคะแนนข้อสอบคณิตศาสตร์โรงเรียนอเมริกัน AIME ได้ 99.2% เข้าสู่ขอบเขตแดน diminishing return ได้คะแนนมากกว่านี้ไปก็ไม่มีประโยชน์เท่าไรนัก
ความเห็นของเขาคือเราต้องมีเบนช์มาร์คแบบใหม่ๆ ที่ใช้วัดโลกความเป็นจริง (physical intelligence) และวัดความปลอดภัย (safety) เพื่อหาพฤติกรรมหรือนิสัยของ AI ที่เราไม่ต้องการให้มี
เขาบอกว่าแนวทางการให้ AI ทำข้อสอบแบบมนุษย์ หรือ ให้ตอบผลลัพธ์แล้วมนุษย์เลือกว่าชอบอันไหนมากกว่า มันเริ่มไม่เวิร์คแล้ว ต้องหาแนวทางใหม่ๆ ในการวัดและประเมินผล
ของใหม่ที่ DeepMind เพิ่งประกาศคือ Game Arena จับโมเดลมาเล่นเกมแข่งกันว่าโมเดลใครเก่งกว่า ต่อสู้กันเป็นทัวร์นาเมนต์ไปเรื่อยๆ การจับโมเดลมาแข่งกันเองทำให้การต่อสู้เป็นไดนามิก คือ ไม่ใช่ข้อสอบตายตัวเหมือน AIME แต่ต้องอ่านความเคลื่อนไหวของคู่แข่งเสมอ โจทย์จะยากขึ้นเรื่อยๆ อัตโนมัติ
แนวทาง Game Arena เริ่มต้นจากแข่งหมากรุกก่อน เพราะเป็นเกมคลาสสิก (แถม Demis เองก็เป็นเซียนหมากรุกตั้งแต่เด็กด้วย) แต่จะค่อยๆ เพิ่มเกมประเภทอื่นๆ ที่ซับซ้อนขึ้น เพื่อให้โมเดลเล่นเกมได้หลากหลายประเภท เป็นโมเดล general ที่ทำได้ทุกอย่าง ไม่ได้ปรับแต่งมาเพื่อเก่งแค่เกมเดียว
4. World Model
Demis พูดถึงเรื่องข้อจำกัดของโมเดลภาษา (language model) ในปัจจุบัน ว่าพัฒนาไปมากแล้ว แต่เราไม่สามารถอยู่ในโลกที่มีแต่ภาษาหรือคณิตศาสตร์เพียงอย่างเดียวได้ ขั้นถัดไปคือเราอยากสร้างโมเดลที่ “เข้าใจโลกกายภาพ” (physics of the world) หรือที่ในวงการเรียกกันว่า world model ซึ่งเป็นก้าวสำคัญที่ต้องพิชิตให้ได้ก่อนไปสู่ AGI
เรื่องนี้ ผมเคยเขียนถึงไปแล้วตอนเขียนเรื่อง NVIDIA ที่พยายามทำเรื่องนี้มาหลายปี (digital twins) และมีอีกหลายบริษัทที่ทำเรื่องนี้ อีกตัวอย่างคือ World Labs ของ Fei Fei Li เจ้าแม่ computer vision (ค่ายนี้ใช้คำว่า spatial intelligence)
บ้าน DeepMind มีโมเดลอีกซีรีส์ชื่อว่า Genie ที่ทำมาสักพักแล้ว มันคือการสั่งให้โมเดลสร้างโลก 3D เหมือนในเกมขึ้นมาด้วยคำสั่งพร็อมต์อย่างเดียว แล้วเราเข้าไปเดินสำรวจในโลก 3D นี้ได้ เหมือนเล่น Minecraft หรือ Roblox
ล่าสุด DeepMind ออก Genie 3 ที่เก่งกล้าสามารถขึ้นมาก สร้างโลก 3D ที่มี “ความทรงจำ” ได้แล้ว เช่น เราเปิดประตูในบ้านจำลอง แต่ไม่ได้ปิด เดินวนกลับมาอีกที ประตูยังเปิดอยู่ ของพวกนี้ทำได้ไม่ยากหากสร้างด้วยเอนจินเกมแบบ Unity แต่อย่าลืมว่านี่คือโมเดล AI ที่สั่งพร็อมต์เดียวสร้างขึ้นมา
ใครอยากดูตัวอย่างแบบเต็มๆ ว่า Genie 3 มันทำอะไรได้บ้าง ดูได้จากหน้าเว็บ Genie 3 มีสารพัดตัวอย่างให้ดูกัน
โมเดลแบบ Genie ยังไปต่อได้อีกไกล ผมประเมินเองคร่าวๆ ว่าเราน่าจะมาได้สัก 10-20% ของสิ่งที่เป็นไปได้เท่านั้น Demis ยกตัวอย่างการใช้งานว่า สร้างโลกด้วย Genie แล้วมีโมเดลอีกตัวชื่อ SIMA (Simulated Agent) เอาไปเดินสำรวจโลก เราจะได้ unlimited training data มาใช้งาน ฝึกเอาไปเทรนหุ่นยนต์ในโลกจำลอง ก่อนเอามาใช้ในโลกจริงได้ (NVIDIA ก็คิดแบบนี้ ตามที่เคยเขียนไปแล้ว)
5. Omnimodel
ประเด็นสุดท้ายที่ Demis พูดถึงคือเรื่องการ scaling ของโมเดล ว่าหลังจากเรา scale ในมิติต่างๆ เช่น data, compute และล่าสุดคือ reasoning ไปแล้ว ขั้นต่อไปคือการเปิดให้โมเดลเรียกใช้เครื่องมือ (tools) ภายนอก เช่น โมเดลหลักอาจเรียกตัวช่วยเฉพาะทางด้านคณิตศาสตร์ ฟิสิกส์ เขียนโค้ด หรือตัวช่วยค้นเว็บ
คำถามสำคัญในฐานะคนพัฒนาโมเดลคือ จะเลือกอย่างไรว่า ฟีเจอร์ไหนอยู่ในตัวโมเดลหลัก ฟีเจอร์ไหนควรเรียก tools ภายนอก
Demis บอกว่าถ้าเทียบเป็นมนุษย์น่ะง่าย เพราะอะไรที่อยู่ในร่างกายถือเป็นโมเดลหลัก อะไรอยู่นอกร่างกายนับเป็น tools แต่พอเป็นโลกดิจิทัล เส้นแบ่งนี้มันเบลอ เราจะเลือกยังไงดี
หลักคิดของเขาคือ ฟีเจอร์ไหนที่ใส่เข้ามาในโมเดลหลัก แล้วมันเสริมให้ด้านอื่นเก่งไปด้วย เช่น เขียนโค้ดเก่ง คณิตเก่ง แล้วทำให้ reasoning ดี ก็ควรใส่เข้ามาในโมเดลหลัก แต่อะไรที่ใส่เข้ามาแล้วกระทบฟีเจอร์อื่นให้ถดถอยลง ควรเรียกใช้เป็น tools ภายนอก ซึ่งในทางปฏิบัติแล้วเป็นสิ่งที่ต้องทดลองทำดู (empirical)
เขายังพูดถึงวิวัฒนาการของโมเดล ว่ามันจะเริ่มเปลี่ยนจากโมเดลเดี่ยวๆ กิน token เข้าไป คาย token ออกมา กลายมาเป็น “ระบบ” (system) ที่โมเดลหลักมีความสามารถด้านวางแผน มีเหตุมีผล และเรียกใช้ tools ภายนอกหลายอันมาผสมผสานกันได้ มีระบบปลั๊กอิน เปิดปิดเครื่องมือตามการใช้งาน
ในระยะถัดไป เราจะเริ่มเห็นโมเดลหลายๆ ตัวเริ่มหลอมรวมเข้าด้วยกันเป็น Omnimodel ซึ่งเขายกตัวอย่าง Gemini (ภาษา) รวมกับ Veo (วิดีโอ) และ Genie (สร้างโลก) ซึ่งคงเป็นเส้นทางที่ AGI จะเกิดขึ้นในอนาคต (อันนี้ก็ตรงกับแนวคิด อ. Yann อีกนั่นแหละ แค่วิธีอาจคนละทาง)