Jeff Dean & Noam Shazeer

ก่อนหน้านี้เขียนเรื่อง DeepSeek สามารถสร้างโมเดลในต้นทุนที่ถูกกว่าโมเดลในตลาด โดยผมยกปรากฏการณ์ Google ทำ MapReduce เพื่อสร้างเซิร์ฟเวอร์จากชิ้นส่วนพีซีทั่วไปเมื่อ 20 ปีก่อนมาเปรียบเทียบ และเล่าว่าผู้สร้าง MapReduce คือ Jeff Dean ที่ปัจจุบันเป็นหัวหน้านักวิทยาศาสตร์ (Chief Scientist) ของบริษัท

พูดถึง Jeff Dean ไม่ทันไร Jeff Dean ก็มา เขามาออกรายการสัมภาษณ์ช่องพ็อดแคสต์ Dwarkesh Patel ความยาวเต็มอิ่ม 2 ชั่วโมง 15 นาที โดยควงเพื่อนมาด้วยอีกคนคือ Noam Shazeer

ด้วยชื่อชั้นของผู้ให้สัมภาษณ์และความยาวของคลิปสัมภาษณ์แล้ว ใครที่สนใจเรื่อง architecture ของคอมพิวเตอร์ในยุค AI ไม่ควรพลาดด้วยประการทั้งปวง จึงมาแนะนำกัน

ก่อนอื่นต้องแนะนำก่อนว่าสองคนนี้คือใคร ทำไมถึงสำคัญ

ในโลกไอทีมันมีคำว่า 10x engineer อยู่ ความหมายคือวิศวกรซอฟต์แวร์ที่เก่งกว่าวิศวกรคนอื่นๆ ประมาณ 10 เท่า ซึ่งมีอยู่จริงๆ (แม้จำนวนอาจไม่เยอะ) และ Jeff Dean คือหนึ่งในต้นแบบของ 10x engineer ที่ยอมรับกันในวงการ แถมถ้าวัดผลกระทบหรือ impact ของสิ่งที่ Jeff Dean สร้างขึ้นมาตลอด 25 ปีนี้ การจะยกให้เขาเป็น 100x หรือ 1000x engineer ก็ไม่ถือว่าโอเวอร์เกินไปนัก

ผลงานของ Jeff Dean เรียกว่ายาวเป็นหางว่าว และมัน super impact ทุกอัน เช่น MapReduce (เขียนไปแล้ว), Bigtable ที่มาพลิกวงการฐานข้อมูลยุค big data, Cloud Spanner ที่สุดไปอีกทางคือฐานข้อมูลแบบใหม่คือฐานข้อมูลที่กระจายตัวครอบคลุมทั้งโลก, DistBelief หนึ่งในโครงการซอฟต์แวร์ที่ตั้งชื่อได้เจ๋งที่สุด มันคือระบบเทรน AI แบบกระจายศูนย์ (Dist) ที่กลายเป็นรากฐานของ TensorFlow ในปัจจุบัน

Jeff Dean ยังเป็นผู้ก่อตั้ง Google Brain ทีม AI ของ Google (ร่วมกับ Andrew Ng ที่เพิ่งมาไทย) ในทีมรุ่นแรกๆ ยังมี Ilya Sutskever ที่เป็นผู้ร่วมก่อตั้ง OpenAI ในภายหลังด้วย ตอนหลัง Google Brain หลอมรวมกับ DeepMind กลายเป็น Google DeepMind ที่นำโดย Demis Hassabis ผู้ก่อตั้งและซีอีโอของ DeepMind ส่วน Jeff Dean ถอยกลับไปรับงานที่เขาถนัดนั่นคือ Chief Scientist

ใน Google เองมีมุขประมาณว่า “Jeff Dean facts” ที่เอาไว้แซวกันตลกๆ เหมือนกับ Chuck Norris facts เพราะเขาคือเทพแห่งการ optimization หยิบจับอะไรก็สามารถรีดพลังของระบบนั้นขึ้นมาได้หลายสิบเท่าร้อยเท่า ตัวอย่างมุข (ที่พูดในรายการ) คือ ความเร็วแสงนั้นเดิมทีเร็วแค่ไม่กี่สิบไมล์ต่อชั่วโมงเท่านั้น จนกระทั่ง Jeff Dean ไปยุ่งกับมัน ความเร็วแสงเลยเป็น 3×10^8 แบบที่เห็นกัน

ถ้าลองดู top comment ใน YouTube รายการนี้คือยิ่งฮา “Jeff Dean doesn’t do training runs; the machines teach themselves out of sheer respect.” (ผมอ่านแล้วนั่งขำออกมาเลย) น่าจะแสดงให้เห็นถึงฝีไม้ลายมือของ Jeff Dean ที่คนจำนวนมากยอมรับได้เป็นอย่างดี

ส่วน Noam Shazeer อธิบายแบบสั้นๆ เลย เขาคือชื่อที่สองในเปเปอร์พลิกโลก Attention Is All You Need ที่เป็นจุดกำเนิดของโมเดลตระกูล Transformer (T ใน GPT) ในปัจจุบัน

หลังจากนั้น Noam ไปทะเลาะกับฝ่ายบริหาร Google เพราะเขาสร้าง AI chatbot ยุคแรกๆ ชื่อว่า Mena คือทำมาก่อน ChatGPT ด้วยซ้ำ แต่เสียดายฝ่ายบริหารของ Google ตอนนั้นไม่ยอมให้ปล่อยออกมาสู่สาธารณะ (ไม่งั้นคงครองโลกไปแล้ว) เขาเลยลาออกไปเปิดบริษัทเองชื่อ Character.ai แต่ก็ไม่ค่อยเวิร์ค ปี 2024 Google เลยซื้อตัวเขากลับมา (ในราคารวม 2.7 พันล้านดอลลาร์) เพื่อเอามาเป็นผู้นำ (ร่วม) ของโครงการ Gemini นี่ล่ะ

ในแง่ชื่อชั้นศักดิ์ศรีแล้ว สองคนนี้คือผู้ยิ่งใหญ่ในสายเทคนิคของ Google ดังนั้นสิ่งที่เขาพูดคือ Google คิดอะไร อยากทำอะไร มีบทเรียนอะไร ในการพัฒนาโครงสร้างพื้นฐานสำหรับ AI (รวมถึงใครสนใจฟังประวัติของ Jeff Dean ตลอด 25 ปีที่ผ่านมาก็พูดถึงเยอะ)

เนื่องจากรายการมันยาว 2 ชั่วโมงกว่า ผมใช้เวลาฟังอยู่ประมาณ 2-3 วัน รู้เรื่องบ้างไม่รู้เรื่องบ้าง (ฟังเข้าใจประมาณ 60% ที่เหลือยากไปพลังวัตรไม่พอ ต้องมานั่งไล่อ่าน transcript ใน YouTube เพิ่มตอนหลัง) พอสรุปประเด็นที่น่าสนใจได้ดังนี้ (เฉพาะประมาณ 1 ชั่วโมงแรกของบทสัมภาษณ์)

Noam มาทำงานกับ Google ในปี 2000 ตอนแรกไม่คิดอะไร อยากหาเงินมาสักก้อนเพื่อมาทำวิจัยเรื่อง AI (ในปี 2000!) แต่เขาพบว่าที่ Google นี่ล่ะคือที่เหมาะสมสำหรับวิจัยเรื่อง AI
วิทยานิพธ์ ป.ตรีของ Jeff คือการทำ backpropagation แบบขนาน ซึ่งกลายเป็นพื้นฐานของการเทรน AI ยุคนี้ แต่ Jeff เริ่มทำมาตั้งแต่ปี 1990 ตอนนั้นเขาเจอข้อจำกัดของฮาร์ดแวร์ แต่เมื่อเวลาผ่านไป กฎของมัวร์ทำให้ฮาร์ดแวร์เร็วขึ้นมาก ไอเดียที่เคยคิดไว้จึงทำได้จริง
Jeff มองว่ากฎของมัวร์เริ่มทำงานได้ช้าลงในฝั่งของ CPU เมื่อเทียบกับ 10-20 ปีก่อน แต่การมีชิปเฉพาะทางอย่าง GPU ที่เน้นงาน machine learning, TPU หรือชิปเร่งความเร็วอื่นๆ ทำให้ยังรักษากฎของมัวร์ไว้ได้
โลกอัลกอริทึมตอนนี้วิ่งตามโลกของฮาร์ดแวร์แทนแล้ว ในอดีต ค่าประมวลผลแพง ค่าย้ายข้อมูลถูก แต่ปัจจุบัน ค่าประมวลผลถูก ค่าย้ายข้อมูลแพงขึ้นแทน วงการ machine learning เกิดขึ้นได้เพราะค่าประมวลผลถูกลง เราสามารถคูณ matrix ได้ในราคาถูกลงมาก
Google สร้าง TPU ขึ้นมาเพื่อลดต้นทุนค่าประมวลผล เมื่อสร้าง TPU ได้สำเร็จ แก้ปัญหาเรื่องต้นทุนได้แล้ว ที่เหลือเป็นการหา opportunity cost
เทพแห่งการ optimization อย่าง Jeff ยกคำพูดของ Larry Page ที่ว่า ต้นทุนที่แพงที่สุดคือ opportunity cost, อันดับสองคือภาษี (ความหมายโดยนัยของมันคือ ต้นทุนทางไอทีทุกอย่างสามารถลดลงได้เสมอ และถูกกว่าค่าเสียโอกาสเสมอ)
หลังจากทำ TPU มาแล้ว 6 เวอร์ชัน สิ่งที่ Google ทำได้ดีขึ้นเรื่อยๆ คือการประมวลผลโมเดลด้วยความแม่นยำของหลักทศนิยม (precision) ที่ลดลง แล้วยังได้ผลเท่าเดิม (quantizing) ทำให้ใส่จำนวนการคูณเข้าไปได้เยอะขึ้น เพิ่ม throughput ได้มากขึ้น
จากเดิมโลกคอมพิวเตอร์มองว่าทศนิยมต้อง 64-bit (FP64) เท่านั้น และตอน Google เริ่มทำ TPU นั้นไม่ชัวร์ด้วยซ้ำว่าจะประมวลผลเลขจำนวนเต็ม 8-bit ได้จริงหรือ แต่เทคนิคการประมวลผลพัฒนาขึ้นมาเรื่อยๆ จนตอนนี้ INT4 หรือ FP4 เริ่มนิยมแพร่หลาย
ในปี 2007 ทีม Google Translate ทำอัลกอริทึม machine translation ไปแข่งประกวดของ DARPA โดยให้เวลา 1 สัปดาห์ แปลภาษาความยาว 500 ประโยคไปส่งเพื่อดูว่าอัลกอริรึมใครแม่นกว่ากัน ตอนนั้น Google ชนะใสๆ ทิ้งห่างคนอื่น ทำให้ Jeff สนใจแล้วไปคุยกับหัวหน้าโครงการ ถามว่าเราจะออกฟีเจอร์นี้ให้คนทั่วไปใช้เมื่อไร คำตอบที่ได้คือ ไม่ออกหรอก เพราะเราต้องใช้เวลา 12 ชั่วโมงในการแปลประโยคเดียว เพราะการรันโมเดลภาษาในฮาร์ดดิสก์ 100,000 ตัวมันช้าเกินไป (แต่การให้เวลาแข่ง 1 สัปดาห์เอื้อให้แปลส่งแข่งได้)
เทพแห่ง optimization เลยเข้ามาช่วยแก้ปัญหา เขาใช้เวลา 2-3 เดือนออกแบบระบบเก็บข้อมูลความถี่คำที่เรียงต่อกันในชีวิตจริง (N-gram) แล้วบีบอัดให้เล็กลงใส่ในหน่วยความจำ โมเดล N-gram ตอนนั้นทำได้แค่ 2-3 คำต่อกัน (two-grams / three-grams) แต่ Jeff เลือกทำ 5 คำ (five-grams) ซึ่งใหญ่กว่าเดิมมาก แต่ก็ช่วยให้การแปลด้วยเครื่องแม่นยำขึ้นมาก ผลคือระบบของ Jeff ลดเวลาจาก 12 ชั่วโมงลงมาเหลือ 100 มิลลิวินาที
แนวทาง N-gram กลายเป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ (LLM) ในเวลาต่อมา จากฐานข้อมูลความถี่ 5 คำ ขยับมาเป็น 100, 1000 คำ ใหญ่ขึ้นเรื่อยๆ จนครอบคลุมข้อความทั้งหมดในเว็บ
อีกเปเปอร์สำคัญของ Google Brain ในปี 2012 (Building High-level Features Using Large Scale Unsupervised Learning) ทีมได้ลองสร้างระบบประมวลผลด้วย CPU จำนวนมากๆ ระดับ 16,000 คอร์ (นับเป็น 2,000 เครื่อง) เพราะยุคนั้นยังไม่มี GPU มาช่วย แล้วสามารถทำอัลกอริทึม unsupervised learning จากเฟรมวิดีโอ YouTube ที่เลือกมาแบบสุ่มๆ เพื่อให้บอกได้ว่าภาพไหนคือ “แมว” โดยที่อัลกอริทึมไม่เคยถูกสอนให้รู้จักแมวมาก่อน ถือเป็นก้าวสำคัญของวงการ unsupervised learning ในยุคนั้น (Jeff Dean โพสต์ถึงเปเปอร์นี้)

Google มีจุดกำเนิดมาจากสายวิชา information retrieval (สืบค้นข้อมูล) แต่ภารกิจของ Google ยิ่งใหญ่กว่านั้นคือ to organize the world’s information and make it universally accessible and useful ดังนั้น บริการของ Google ในปัจจุบันไปไกลกว่า information retrieval มากแล้ว โมเดล AI ในปัจจุบันยังช่วยสร้าง information ใหม่ๆ ให้ด้วย
Noam เล่าว่า โมเดลในปัจจุบันทำงานได้ค่อนข้างดี แต่ยังมีปัญหาหลอน (hallucinate) หรือตอบข้อเท็จจริงผิด ปัญหาเกิดจากเราใช้ข้อมูลขนาดใหญ่มากในการเทรน ระดับหมื่นล้าน token ซึ่งพอข้อมูลมันผสมๆ กันทำให้โมเดลสับสน การมีกลไก attention ใน Transformer เข้ามาช่วยแก้ปัญหานี้ได้ เพื่อให้โมเดลรู้ว่าควรใส่ใจ (attention) กับข้อมูลตรงจุดไหน ปัจจุบันเรามีโมเดลที่รองรับอินพุตหรือ context window หลักล้าน token แต่เป้าหมายก็คือต้องทำให้ได้ระดับล้านล้าน token เพื่อให้เกิดโมเดลที่รู้จักทั้งอินเทอร์เน็ต และรู้ว่าจะสามารถไปหาข้อมูลให้เราได้จากตรงไหน
แน่นอนว่าการไปให้ถึงจุดนั้นมีข้อจำกัดเรื่องฮาร์ดแวร์ กลไก attention ใช้พลังประมวลผลสูง (อัลกอริทึมเป็น quadradic หรือยกกำลังสอง) ในแง่การวิจัยก็ต้องพัฒนาเทคนิคเพื่อก้าวข้ามข้อจำกัดกันต่อไป
ตัวอย่างการใช้งานโมเดลขนาดใหญ่ระดับนี้คือ ยัดซอร์สโค้ดทั้งหมดของ Google ลงโมเดลให้นักพัฒนาใช้งาน หรือ ซอร์สโค้ดของโครงการโอเพนซอร์สทั้งหมดที่นักพัฒนาคนไหนๆ ก็เข้าถึงได้ มันจะเป็นอะไรที่เจ๋งมาก
Jeff เสริมว่าทุกวันนี้เริ่มทำไปบ้างแล้ว โดยเทรน Gemini ให้รู้จักโค้ดภายในของ Google และตอนนี้โค้ดใหม่ 25% ถูกสร้างด้วย AI แล้ว
ทุกวันนี้ AI ถูกนำมาใช้กับงานที่ซับซ้อนอย่างการออกแบบชิปแล้ว จากประสบการณ์ของ Google ในการทำ TPU ใช้ทีมประมาณ 150 คน กับเวลาประมาณ 18 เดือนในการออกแบบ แล้วค่อยส่งต่อให้ TSMC โดยระยะเวลาของฝั่ง TSMC ใช้ประมาณ 4 เดือน ตรงนี้คงปรับลดอะไรไม่ได้มาก แต่เมื่อ AI เข้ามาช่วยออกแบบชิป สามารถลดระยะเวลาออกแบบชิปลงได้มาก เหลือ 6-9 เดือน (อนาคตคงลดลงได้สูงสุดเหลือ 3-5 เดือน) และลดทีมลงมาเหลือแค่ไม่กี่คน
ต้นทุนในการรัน (inference) ของโมเดลภาษาตอนนี้ ถ้าคิดเป็นจำนวนโทเคนต่อดอลลาร์ จะถูกกว่าการอ่านหนังสือประมาณ 100 เท่า (หนังสือเล่มนึงยาวประมาณ 10,000 โทเคน) และถูกกว่าการพูดคุยกับคอลล์เซ็นเตอร์ประมาณ 10,000 เท่า คำถามคือเราจะลดต้นทุนของ inference ลงได้อีกเยอะแค่ไหน
ในอดีต โลก AI มักไปสนใจกับการลดต้นทุนค่าเทรนโมเดล ซึ่งดีขึ้นเรื่อยๆ แต่ในระยะถัดไป ค่ารันหรือ inference จะกลายเป็นเรื่องสำคัญกว่า เพราะเริ่มมีโมเดลที่คิดซับซ้อนขึ้น (โมเดลจำพวก think harder เช่น Gemini 2.0 Flash Thinking) ได้ผลลัพธ์ที่ดีขึ้น แต่ก็สิ้นเปลืองโทเคนมากขึ้นไปด้วย จึงต้องหาวิธีลดต้นทุนในการรันลง ซึ่งตอนนี้วงการ AI มีนักวิจัยมากกว่า 10,000 คนกำลังทำเรื่องนี้
TPU รุ่นแรกออกแบบมาเพื่อ inference แต่รุ่นถัดๆ มาเพิ่มส่วนของเทรนนิ่งเข้ามา
ทุกวันนี้ การเทรนโมเดลของ Google ทำข้ามศูนย์ข้อมูลกันอยู่แล้ว (multi-data center training) การทำงานข้ามศูนย์ข้อมูลมีข้อจำกัดเรื่อง latency ของเครือข่าย แต่กระบวนการเทรนโมเดลนั้นแบ่งเป็นสเต็ปย่อยๆ แต่ละสเต็ปสั้นๆ เพียงไม่กี่วินาที ดังนั้นการมี latency หลัก 50 millisec จึงไม่มีผลมากนัก
ในอดีต Google ใช้ CPU คำนวณซึ่งมันช้า แบ่งงานไปเทรนแล้วเสร็จไม่พร้อมกัน ต้องทำ asynchronous training โดยทำสำเนาโมเดลไปอยู่ในแต่ละเครื่อง แล้วส่งกลับมาส่วนกลาง แต่พอยุคนี้ทำ synchronous ได้แล้วก็ง่ายขึ้น เพราะตัว TPU เร็วขึ้น เครือข่ายระหว่างศูนย์ข้อมูลมีแบนด์วิดท์เยอะขึ้นมาก

ที่เหลือสรุปต่อไม่ไหว หมดแรงแล้ว เอาเท่านี้ก่อน ใครสนใจฟังหัวข้อที่เหลือ ตามไปฟังในคลิปกันเอง (สรุปถึงตรง multi-datacenter runs)

Published

February 20, 2025

Isriya Paireepairit in Technology | February 20, 2025

Jeff Dean & Noam Shazeer