Deep Speech ระบบสั่งงานด้วยเสียงขั้นเทพ จากไป่ตู้

Home / IT News / Deep Speech ระบบสั่งงานด้วยเสียงขั้นเทพ จากไป่ตู้

“ไป่ตู้ รีเสิร์ช” พลิกโฉมระบบการสั่งงานด้วยเสียงด้วยระบบ “Deep Speech” ระบบการเรียนรู้เชิงลึกที่ยืดหยุ่นตั้งเป้าที่จะพัฒนาระบบการสั่งงานด้วยเสียง ภายใต้สภาพแวดล้อมที่มีเสียงดังรบกวนมาก

Pic_deep speech

“ไป่ตู้ รีเสิร์ช” แผนกวิจัยและพัฒนาของไป่ตู้ เปิดเผยผลเบื้องต้นของการวิจัยและพัฒนา “ดีพ สปีช” (Deep Speech) ระบบสั่งงานด้วยเสียงใหม่ล่าสุด

“ดีพ สปีช” เป็นระบบการสั่งงานด้วยเสียงแบบใหม่ที่พัฒนาขึ้นโดยมีเป้าหมายเพื่อเพิ่มความแม่นยำในการสั่งงานภายใต้สภาพแวดล้อมที่มีเสียงดังรบกวนอยู่มาก (เช่น ในร้านอาหาร, บนรถ และรถโดยสารสาธารณะ) และสภาพแวดล้อมที่มีเสียงสะท้อนสูงหรือผู้ใช้งานอยู่ในระยะไกล

“ไป่ตู้ รีเสิร์ช” แผนกวิจัยและพัฒนาของไป่ตู้ เปิดเผยผลการพัฒนาเบื้องต้นของระบบการสั่งการด้วยเสียงแบบใหม่ เรียกว่า “ดีพ สปีช” (Deep Speech) ที่พัฒนาขึ้นเพื่อเพิ่มความแม่นยำให้การสั่งการด้วยเสียงกับอุปกรณ์อัจฉริยะต่างๆ ในสภาพแวดล้อมที่มีเสียงดังรบกวน เช่น ในร้านอาหาร ในรถยนต์ บนรถโดยสารสาธารณะ รวมถึงสภาพแวดล้อมที่อื่นๆ เช่น มีการสะท้อนของเสียงสูง หรือ ผู้ใช้งานอยู่ไกลจากไมโครโฟน เป็นต้น

กุญแจสำคัญของการทำงานของ “ดีพ สปีช” คือระบบการฝึกฝนแบบ Recurrent Neural Net (RNN) ที่ได้รับการปรับแต่งมาอย่างดี โดยใช้หน่วยประมวลผลกราฟฟิก (Graphic Processing Unit หรือ จีพียู) หลายๆ ตัว มาช่วยประมวลผล รวมทั้งเทคนิคในการสังเคราะห์ข้อมูลแบบใหม่ๆ ที่ช่วยให้นักวิจัยของไป่ตู้สามารถรวบรวมข้อมูลจำนวนมหาศาลมาใช้ในการฝึกฝนระบบให้พัฒนาขึ้นได้อย่างมีประสิทธิภาพ

ในช่วงต้นเดือนที่ผ่านมา การทดสอบได้แสดงให้เห็นผลดังต่อไปนี้

 ระบบ “ดีพ สปีช” ให้ผลลัพธ์ที่ดีกว่าผลการทดสอบเปรียบเทียบ Switchboard Hub5’00 ที่ได้มีการเผยแพร่ไปก่อนหน้า โดยมีอัตราความผิดพลาดของคำ (Word Error Rate) เพียง 16.5%

 ระบบ “ดีพ สปีช” ให้ผลลัพธ์ที่ดีกว่าเว็บ API ของบริการสาธารณะอื่นๆ (Google Web Speech, wit.ai) รวมถึงบริการเชิงพาณิชย์ต่างๆ (Bing Speech Services, Apple Dictation) โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีเสียงรบกวนมาก โดย “ดีพ สปีช” สามารถให้ผลลัพธ์ที่ดีกว่าระบบอื่นๆ มากกว่า 10% (Word Error Rate) ภายใต้สภาพแวดล้อมที่มีเสียงรบกวนมาก

ดร.แอนดรูว์ อึง หัวหน้าคณะนักวิทยาศาสตร์ของไป่ตู้ให้ความเห็นว่า “การเรียนรู้เชิงลึก ฝึกฝนระบบกับชุดข้อมูลขนาดใหญ่ (ข้อมูลสังเคราะห์มากกว่า 100,000 ชั่วโมง) ทำให้เราสามารถบรรลุถึงการพัฒนาระบบสั่งงานด้วยเสียงได้อย่างมีนัยสำคัญ ผมรู้สึกตื่นเต้นกับความก้าวหน้านี้ เพราะผมเชื่อว่าระบบการสั่งงานด้วยเสียงจะพลิกโฉมอุปกรณ์พกพา ตลอดไปจนถึง Internet of Things (IoT) ด้วย และนี่ก็เป็นแค่การเริ่มต้นเท่านั้น”

ดร.แดน จูราฟสกี้ ศาสตราจารย์ภาควิชาภาษาศาสตร์และวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยสแตนฟอร์ดกล่าวว่า “ผมรู้สึกสนใจเกี่ยวกับวิธีการใหม่ของไป่ตู้ในระบบการสั่งงานด้วยเสียงอย่างมาก โดยเฉพาะการใช้โมเดลที่ยอดเยี่ยมในการทำให้ปัญหาดูเรียบง่าย เข้าใจง่ายขึ้นสำหรับวิศวกร เมื่อรวมเข้ากับการประมวลผลด้วยชุดของหน่วยประมวลผลกราฟฟิก (GPUs) เพื่อให้ทำงานได้อย่างรวดเร็ว และสามารถขยับขยายขีดความสามารถได้ง่าย ผลลัพธ์ที่ได้ก็ชี้ให้เห็นถึงทิศทางอันน่าตื่นเต้นในอนาคตอันใกล้ของระบบสั่งงานด้วยเสียง โดยเฉพาะการใช้งานในสภาพแวดล้อมที่มีเสียงรบกวนและอุปสรรคที่ท้าทายอื่นๆ”

“การสั่งงานด้วยเสียงภายใต้สภาพแวดล้อมที่มีเสียงรบกวนและเสียงสะท้อนมากยังคงเป็นความท้าทายแม้กับระบบสั่งงานด้วยเสียงที่ดีที่สุดก็ตาม แต่ผลลัพธ์จากงานวิจัยล่าสุดของ ไป่ตู้ รีเสิร์ช นี้ มีศักยภาพในการพลิกโฉมการทำงานของระบบสั่งงานด้วยเสียงในอนาคต” ดร.เอียน เลน ศาสตราจารย์กิตติเมธีภาควิชาวิศวกรรมศาสตร์แห่งมหาวิทยาลัยคาร์เนกีเมลลอน กล่าวเสริมว่า “นวัตกรรมของไป่ตู้ที่ใช้หน่วยประมวลผลกราฟฟิก (GPU) เพื่อช่วยในการขยายขีดความสามารถและชุดของมูลขนาดใหญ่ ทำให้เราเข้าใกล้วิสัยทัศน์ของการที่จะสามารถพูดคุยกับอุปกรณ์อัจฉริยะ เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ และหุ่นยนต์ต่างๆ แม้ในสภาพแวดล้อมที่มีเสียงรบกวนมาก เข้าไปอีกขั้น”

ผลลัพธ์ของระบบ “ดีพ สปีช” ได้ถูกเผยแพร่ในงานวิจัยชื่อ Deep Speech: Scaling Up End-to-End Speech Recognition