กูเกิลรายงานวิธีแปลงรายมือเป็นตัวอักษรใน Gboard: แปลงภาพเป็นเวคเตอร์ แล้วใช้โมเดล Deep Learning อ่านตัวอักษร

2019-03-08

กูเกิลรายงานถึงการเปลี่ยนแปลงเทคนิคในการแปลงลายมือเป็นอักษรใน Gboard จากเดิมที่พยายามตัดตัวอักษรออกเป็นตัวๆ (segment and decode) ก็พยายามสร้างโมเดลที่สามารถอ่านข้อความจากลายมือได้ทีเดียวทั้งหมด

กระบวนการแปลงภาพเป็นตัวอักษร มี 3 ขั้นตอนหลักๆ ขั้นแรก คือการแปลงภาพให้เป็นเวคเตอร์แบบ Bézier curve กระบวนการนี้ทำให้ข้อมูลมีขนาดเล็กลงมาก จากจุดสัมผัสจอแต่ละจุดกลายเป็นเพียงเส้นโค้งที่มีพารามิเตอร์ไม่กี่ตัวเท่านั้น จากนั้นจึงนำภาพเวคเตอร์นี้ไปอ่านตัวอักษรออกมา ด้วยโมเดล quasi-recurrent neural networks (QRNN) เนื่องจากโมเดลมีขนาดเล็ก, น่าจะประมวลผลขนานได้ง่าย, และความแม่นยำดีพอสมควร ขั้นสุดท้ายคือการแปลงเป็นคำด้วยตัวจัดหมวดหมู่ Connectionist Temporal Classification (CTC) ที่จะให้คะแนนชุดอักษรที่สมเหตุสมผลต่อภาษาที่กำลังใช้งาน

โมเดลทั้งหมดพัฒนาบน TensorFlow ปกติ แต่นำมา quantize ให้ค่า weight แต่ละตัวกินพื้นที่เพียงไบต์เดียวและทำงานได้เร็วขึ้น

ตอนนี้โมเดลใหม่ใช้งานกับภาษาที่เป็นตัวอักษรละตินแล้ว

ที่มา – Google AI

No Description