GBoard บน Pixel จะเปลี่ยนมาประมวลผล Speech Recognition ด้วยชิป ML ในเครื่องแทน

2019-03-13

ทีม AI ของ Google เขียนบล็อคเผยว่าระบบ speech recognition ใน GBoard (พูดแล้วแปลงเป็นคำ) บน Google Pixel จะรองรับการประมวลผลในเครื่องแทนที่จะประมวลผลจากเซิร์ฟเวอร์ในแบบเดิม ช่วยลด latency ในการประมวลผลเสียงเป็นคำลง รวมถึงสามารถใช้ได้แบบออฟไลน์ด้วย

การเปลี่ยนแปลงนี้เกิดขึ้นได้ ส่วนหนึ่งก็จากบน Pixel 2 และ 3 มี Pixel Visual Core ที่รองรับการประมวลผล ML ในเครื่องเลย อีกส่วนคือการเปลี่ยนแปลงโมเดลของระบบ speech recognition จากเดิมที่เป็นแบบ sequence-to-sequence ประมวลผลเสียงพูดออกมาเป็นคำหรือประโยค ซึ่งกระบวนการนี้มีข้อจำกัดเรื่องความหน่วง ไม่รองรับการประมวลผลทั้งขา input (พูด) และ output (แสดงคำ/ประโยค) ในเวลาเดียวกัน

โมเดลใหม่ที่ทีม AI นำมาใช้ใน GBoard คือ RNN-T (Recurrent Neural Network Transducer) ช่วยให้สามารถแปลงจากเสียงเป็นคำได้แบบเรียลไทม์ ซึ่ง Google บอกไม่เพียงแต่ลดความหน่วงลง แต่ยังแม่นยำขึ้นราว 5% รวมถึงตัวโมเดลก็มีขนาดเล็กลง (250MB เมื่อเทียบกับโมเดลเดิมที่ 2GB ก่อนที่ทีม AI จะลดขนาดลงไปอีกให้เหลือเพียง 80MB เพื่อให้เหมาะสมกับการประมวลผลบนมือถือ) รายละเอียดเพิ่มเติมสามารถอ่านได้จากที่มา

No Description

ทั้งนี้ระบบ speech recognition ใหม่บน GBoard นี้รองรับเฉพาะภาษาอังกฤษแบบอเมริกันอย่างเดียวก่อนเท่านั้น

ที่มา – Google AI Blog via Venturebeat