อ่านบทสัมภาษณ์เก่าของ Pat Gelsinger ซีอีโอ Intel ใน The Verge (ให้สัมภาษณ์เมื่อเดือนตุลาคม 2022 แต่เพิ่งได้อ่าน) ทำให้ได้เห็นเบื้องหลังความผิดพลาดของ Intel หลายอย่าง ว่าจริงๆ แล้วสาเหตุเกิดจากอะไร
ในฐานะผู้สนใจเรื่อง Intel ผมเคยเขียนบทความชุด “เกิดอะไรขึ้นที่อินเทล” ในช่วงปี 2021 (ตอนที่ 1, ตอนที่ 2, ตอนที่ 3) ถึงแม้พยายามหาข้อมูลอย่างละเอียด แต่ข้อมูลภายในบางอย่างเราก็ไม่สามารถเข้าถึงได้ เลยไม่สามารถอธิบายปัญหาของ Intel ได้กระจ่างทุกอย่าง
การได้คนในที่มีสถานะพิเศษอย่าง Pat Gelsinger (ซีอีโอปัจจุบัน ที่เป็นอดีตลูกหม้อ ที่พ่ายการเมืองภายในจนโดนขับออกมา ที่ได้กลับเข้ามาใหม่อีกครั้ง) มา “แฉ” ว่าปัญหาของบริษัทในช่วงที่เขาไม่อยู่นั้นคืออะไร จึงตอบคำถามเหล่านี้ได้ดีมาก
ทำไม Intel ไป 10 นาโนเมตรไม่สำเร็จ
เป็นเพราะ [ผู้บริหารยุคก่อน] ไม่เชื่อมั่นในเทคโนโลยี EUV และเลือกจะไม่ใช้มัน (แม้เป็นหนึ่งในผู้ผลักดัน EUV รายแรกๆ แต่สุดท้ายไม่ยอมเอามาใช้) ไปแทงข้างเทคโนโลยี quad patterning แทน พอแทงผิดข้างแล้วจึงล้มเหลวและติดหล่ม ออกไม่ได้อยู่หลายปี ในขณะที่ TSMC แทงถูกข้างเลยเติบโตพรวดๆ
We were betting against it. We had taken a lot of risk in Intel 10 when we were like, “Hey, we don’t need EUV. We will go to advanced quad patterning of the lithography.” We were doing other things to avoid needing EUV, and those things just weren’t panning out. It might have been a good decision when we did it, but as those things slipped, we were on the wrong side of EUV. TSMC grabbed EUV because of that. By the way, Intel drove the creation of it. How did we not monetize and leverage something that we created?
Pat บอกว่าอย่างน้อย Intel ในยุคนั้นควรเหยียบเรือสองแคม ทำสองทางขนานกันไป ถ้าฝั่งไหนล้มเหลวยังพอมีทางรอด ทำไมตอนนั้นบริษัทของฉันโง่ได้ขนาดนั้น
At a minimum, we should have had a parallel program on EUV that said, “If we get this wrong… If we get quad patterning or the other techniques we’re doing in this self-aligning wrong…” We should have had a program for that, but we didn’t. We were betting against it. How stupid could we be?
Risk Management
หนึ่งในวิธีป้องกันความเสี่ยงที่ Intel สร้างขึ้นในทศวรรษ 2000 แล้วประสบความสำเร็จมาก คือ รอบการออกสินค้าซีพียูแบบ Tick-Tock ซึ่งภายหลังเลิกทำไป
Twenty years ago, we had established what was called the tick-tock methodology, a risk-managed cadence of execution, which had been undone when I was gone.
Intel ยังมีวัฒนธรรมเรื่อง data-driven เป็นผู้ประดิษฐ์แนวทาง OKR (จากในหนังสือ High Output Management ของ Andy Grove) ซึ่งภายหลังก็เลิกทำไปอีก
We had stopped doing OKRs (objectives and key results). People wrote books about that as other companies adopted it. We invented it at Intel, but we stopped doing it.
Pat วิจารณ์แนวทางของ Intel ในยุคหลัง (ก่อนเขาเข้ามา) ว่าไม่สามารถจัดการกับความซับซ้อนของโครงการได้ โดยยกตัวอย่าง Xeon Sapphire Rapids ที่มีของใหม่เข้ามาพร้อมกันถึง 3 อย่าง แล้วพอจัดการไม่ได้ มีปัญหาขึ้นมา ก็ไม่มีแผนสำรองอีก
เขาบอกว่าเมื่อรับมอบสิ่งที่ทำมาแล้วแต่ยังทำไม่เสร็จ ก็ไม่มีทางเลือกอื่นนอกจากผลักดันมันให้เสร็จ แล้วค่อยไปรีเซ็ตกระบวนการใหม่
Much has been said about Sapphire Rapids (the codename for Intel’s 4th Generation Xeon server processors) and the difficulties we had in getting that out. That project was started five years ago, so it’s in-flight. I can’t just reset the methodology of a product that began five years ago.
It didn’t start well, either. It had way too much complexity in it, with three major new systems, or interfaces, in that design — a new CXL (Compute Express Link), a new PCI Gen 5 (Peripheral Component Interconnect Express), and a new DDR5 (RAM) — and there were no backups on any of them. It was like, “How did we take on so much risk and technical challenge in one program?”
เขาวิจารณ์ว่า Intel ยุคก่อนกล้าเสี่ยงมากเกินไป และไม่มีแผนสำรอง เมื่อเขาเข้ามาแล้ว จึงปรับแผนการผลิตใหม่ มี 4 process improvement โดยมีทีมทำงานขนานกัน 4 ทีม
We took too much risk, and we failed. It is a managed risk methodology in that sense.
When I came back, we had said we were going to do five nodes in four years, which is an audacious plan to lay out.
Even inside of the process of technology development now, it is a very risk-managed, cadence-focused delivery, where we have essentially parallelized the 10-7 team (10nm – Intel 7 processes) from the 4-3 team (Intel 4 – Intel 3 processes) from the 20A and 18A team. These teams may build and leverage each other, but they are parallel, each becoming its own tick-tock execution environment.
People Management
Pat ยอมรับตรงไปตรงมาว่า ทีมบริหารของ Intel ยุคก่อนมีปัญหา และต้องปรับปรุงใหม่ตอนที่เขาเข้ามา
When I came back to the company, it needed to be refreshed. We had people that were good leaders in jobs that they, and I quote, “weren’t qualified for.” They had the experience level, and they were good leaders, but they weren’t in the roles that fit their skill sets. We wanted to bring people in that gave us skills and business capabilities in the areas that we needed.
ผลคือเขาดึงผู้บริหารใหม่ๆ คนนอกเข้ามาในตำแหน่งสำคัญๆ เช่น CTO, General Counsel, CFO, Government Affairs, Head of Networking ที่มีประสบการณ์พร้อมทำงานได้ทันที แปลว่าต้องเอาคนเก่าออกไปจำนวนหนึ่ง
ทำไม GPU ของ Intel ถึงห่วยเสมอมา
Pat เล่าว่าตำแหน่งสุดท้ายของเขาที่ Intel ก่อนลาออกไป VMware คือดูแลธุรกิจ data center ซึ่งเขาลิสต์สิ่งที่อยากทำ 10 ข้อ เขาทำสำเร็จได้ 9 ข้อ เหลืออย่างเดียวคือ discrete GPU
When I left Intel 12 years ago, I had taken the data center job at the time, and I had made a list of 10 things I was going to get done. In five years, I finished nine out of 10. The one that I didn’t finish was discrete graphics. So I am now finishing that one that I started 12 years ago.
อีกเหตุผลหนึ่งคือ organization chart ของ GPU (รวมถึง network) ถูกฝังอยู่ลึกๆ รวมกับฝ่ายอื่น ไม่เคยถูกนำออกมาให้เด่น ไม่ค่อยได้รับความสำคัญ ซึ่งในผังองค์กรใหม่ได้แยกส่วนนี้ออกมาเพื่อแก้ปัญหาแล้ว
We have had a large networking business, but it was never treated like a business; it was always submerged. We were doing integrated graphics for two decades, but we were never getting a monetization. Then there is independent software vendor (ISV) presence, and GPUs have become a big computing platform in their own right. We were never treating it that way, even though we were spending most of the R&D to satisfy that segment.
ภาพ EUV จาก Intel