ผลเบนซ์มาร์คการฝึกปัญญาประดิษฐ์ MLPerf ออกรุ่น 0.7 กูเกิลสร้างเครื่องพิเศษเอาชนะได้แทบทุกหมวด

2020-07-30

MLPerf กลุ่มความร่วมมือระหว่างผู้พัฒนาฮาร์ดแวร์และบริการคลาวด์ปัญญาประดิษฐ์ ออกผลการทดสอบการฝึกโมเดลปัญญาประดิษฐ์เวอร์ชั่น 0.7 เพื่อวัดประสิทธิภาพของฮาร์ดแวร์ที่ขายขาดหรือบริการคลาวด์ต่างๆ ว่าสามารถฝึกโมเดลปัญญาประดิษฐ์ (training) ได้ประสิทธิภาพดีเพียงใด โดยรอบนี้กูเกิลสามารถเอาชนะได้แทบทุกหมวดโดยส่งผลจากเครื่องพิเศษที่กูเกิลพัฒนาขึ้นใช้งานภายในโดยใช้ชิป TPU

การทดสอบของ MLPerf ไม่มีเลขตัวเดียวโดดๆ เป็นผลลัพธ์เหมือนกับ SPEC หรือ TPC แต่เป็นการทดสอบแยกประเภทของงานที่พบบ่อยๆ ได้แก่ การจัดหมวดหมู่ภาพ (image classification), การตรวจจับวัตถุในภาพ (object detection), การแปลภาษา (ทั้งแบบ recurrent และ non-recurrent), การประมวลผลภาษาธรรมชาติ (NLP), การแนะนำ (recommendation), และการฝึกตามกติกา (reinforcement learning เช่น การฝึกเล่นเกม)

No Description

กูเกิลส่งผลการทดสอบของ TPUv3 และ TPUv4 เข้าทดสอบ โดยได้ผลดีกว่าคู่แข่ง เช่น ResNet-50 ที่เป็นการจัดหมวดหมู่ภาพ ใช้เวลาฝึกโมเดลเพียง 28 วินาที บน TPUv3 ขนาด 4096 ชิป เอาชนะที่สองอย่าง NVIDIA A100 ขนาด 1840 ชิปที่ใช้เวลา 46 วินาทีไปได้ (คาดว่าใช้ DGX-A100 จำนวน 230 เครื่อง ราคาเครื่องละ 6.4 ล้านบาท)

ควรสังเกตว่า TPU ที่กูเกิลส่งผลมานี้เป็นเครื่องในหมวดวิจัย, พัฒนา, และใช้งานภายใน ขณะที่ NVIDIA A100 ขนาด 1840 ชิป นั้นอยู่ในหมวดเครื่องที่ซื้อไปวางในศูนย์ข้อมูลได้ ขณะที่ผลทดสอบ TPUv3 ที่กูเกิลส่งในหมวดคลาวด์นั้นใช้ TPUv3 จำนวน 16 ชิป โดยส่งผลเพียงการจัดหมวดหมู่ภาพและการประมวลผลภาษาทำให้เปรียบเทียบได้ยาก

ทางด้าน TensorFlow ออกมาเขียนบล็อกถึงเรื่องนี้ว่า TensorFlow รองรับการขยายหน่วยประมวลผลได้ขึ้นขึ้นมากแล้วในช่วงหลัง โดยในหมวดเครื่องบนคลาวด์นี้ทีมงานก็ใช้ TPUv3 16 ชิปกับโมเดลที่คอมไพล์ด้วย XLA compiler ทำให้วิศวกรไม่ต้องไปปรับแต่งโมเดลที่ระดับล่างด้วยตัวเอง ขณะที่ผลการรันก็ได้ประสิทธิภาพสูงขึ้นเกือบ linear เช่น การ์ด NVIDIA V100 8 ใบให้ประสิทธิภาพดีขึ้น 7 เท่าตัว

ที่มา – Google Cloud Blog, TensorFlow Blog, MLPerf