อาลีบาบาเปิดตัวระบบ GPU Pooling ช่วยประหยัดชิป Nvidia ได้ถึง 82%

ทีมนักวิจัยจากมหาวิทยาลัยปักกิ่งและอาลีบาบา กรุ๊ป โฮลดิ้ง เปิดตัวนวัตกรรมระบบรวมทรัพยากรคอมพิวติ้งชื่อ Aegaeon ที่สามารถลดการใช้หน่วยประมวลผลกราฟิก (GPU) ของ Nvidia ได้ถึง 82% สำหรับการให้บริการโมเดล AI ซึ่งถือเป็นความก้าวหน้าสำคัญท่ามกลางความตึงเครียดด้านเทคโนโลยีระหว่างสหรัฐฯ และจีน
ผลการทดสอบที่น่าประทับใจ
ระบบ Aegaeon ผ่านการทดสอบเบต้าใน Alibaba Cloud’s model marketplace มากกว่า 3 เดือน โดยสามารถลดจำนวน GPU รุ่น Nvidia H20 ที่ต้องการจาก 1,192 ตัว เหลือเพียง 213 ตัว ในขณะที่ยังคงให้บริการโมเดล AI หลายสิบโมเดลที่มีพารามิเตอร์สูงถึง 72,000 ล้านตัว งานวิจัยนี้ได้รับการนำเสนอในงานประชุมวิชาการระดับโลก Symposium on Operating Systems Principles (SOSP) ครั้งที่ 31 ที่กรุงโซล ประเทศเกาหลีใต้ เมื่อสัปดาห์ที่ผ่านมา
แก้ปัญหาการใช้ทรัพยากรอย่างไม่มีประสิทธิภาพ
ทีมนักวิจัยจากมหาวิทยาลัยปักกิ่งและ Alibaba Cloud ซึ่งมี Zhou Jingren หัวหน้าเจ้าหน้าที่เทคโนโลยีของ Alibaba Cloud เป็นหนึ่งในผู้เขียนงานวิจัย ระบุว่า “Aegaeon เป็นงานแรกที่เปิดเผยต้นทุนที่สูงเกินไปในการให้บริการโมเดลภาษาขนาดใหญ่แบบพร้อมกันในตลาด” การศึกษาพบว่าในระบบเดิม GPU ถึง 17.7% ถูกจัดสรรเพื่อให้บริการเพียง 1.35% ของคำขอทั้งหมดใน Alibaba Cloud marketplace เนื่องจากโมเดลยอดนิยมอย่าง Qwen ของอาลีบาบาและ DeepSeek ถูกเรียกใช้บ่อยกว่าโมเดลอื่นมาก
เทคโนโลยี GPU Pooling
ระบบ Aegaeon แก้ปัญหาดังกล่าวด้วยเทคโนโลยี GPU pooling ที่ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดล AI พร้อมกันได้ นวัตกรรมนี้ช่วยเพิ่มประสิทธิภาพการใช้ทรัพยากรอย่างมีนัยสำคัญ และลดต้นทุนการจัดซื้อฮาร์ดแวร์ที่มีราคาแพงสำหรับผู้ให้บริการที่ต้องใช้ GPU หลายพันตัว