"Siri วันนี้อากาศเป็นอย่างไรบ้าง" "Ok Google ลดเสียงเพลงลง!" "Alexa สั่งรองเท้าผ้าใบสีน้ำเงินให้ฉันอีกครั้ง!" เทคโนโลยีที่เชื่อฟังทุกคำได้กลายเป็นส่วนหนึ่งในชีวิตประจำวันด้วยผู้ช่วยเสียง กระบวนการซอฟต์แวร์ที่ซับซ้อนทำงานในพื้นหลัง เพื่อให้แน่ใจว่าการควบคุมด้วยเสียงทำงานได้อย่างราบรื่น การตีความคำสั่งเสียงที่ถูกต้องต้องใช้การเตรียมการอย่างมาก พลังการประมวลผลที่สูง และปัญญาประดิษฐ์ที่สำคัญที่สุด
คำของ่ายๆ ประโยคสั้นๆ – เป็นการเล่นของเด็กเพื่อให้สมองของมนุษย์ตีความความหมาย สร้างการเชื่อมต่อ และกระตุ้นให้เกิดปฏิกิริยาตอบสนอง สิ่งนี้ซับซ้อนกว่ามากสำหรับเครื่องจักร หากคุณต้องการควบคุมอุปกรณ์ทางเทคนิคด้วยเสียง ต้องดำเนินการหลายขั้นตอน
"ขอปากกาหน่อย!" - คำสั่งง่ายๆ ที่ช่วยให้คอมพิวเตอร์ทำงานอยู่เบื้องหลัง ขั้นแรก ประโยคที่พูดจะถูกแปลงเป็นข้อความ ซอฟต์แวร์การรู้จำคำพูดต้องใช้รูปแบบความถี่ในการจำแนกคำที่มีอยู่ และเอาชนะความท้าทายมากมายในกระบวนการ: การออกเสียงที่ไม่ชัดเจน คำที่เหมือนกันซึ่งมีความหมายต่างกัน น้ำเสียงหรือภาษาถิ่นต่างกัน เมื่อเปรียบเทียบกับฐานข้อมูลขนาดใหญ่ซึ่งมีตัวอย่างคำนับไม่ถ้วนและรูปแบบความถี่ของคำเหล่านั้น ซอฟต์แวร์จะกำหนดคำที่เกี่ยวข้อง
ขั้นตอนต่อไป คือ การหาความหมายของประโยค เมื่อต้องการทำเช่นนี้ ซอฟต์แวร์จะส่งข้อความไปยังอินเทอร์เฟซเสียง ซึ่งจะตรวจสอบคำหลักบางคำ ในเบื้องหน้า โปรแกรมเมอร์ต้องระบุข้อกำหนดและคำสั่งที่จำเป็นทั้งหมด ที่เรียกว่าเจตนา รวมถึงคำพ้องความหมาย และกำหนดว่าการกระทำใดควรอยู่เบื้องหลัง ตัวอย่างเช่น "ให้" ได้รับการยอมรับว่าเป็นคำขอให้ขนส่งวัตถุไปยังที่ใดที่หนึ่ง คำว่า "ฉัน" เป็นที่เข้าใจในฐานะบุคคลหรือเป็นเป้าหมายของการกระทำ
เมื่ออินเทอร์เฟซรับรู้ความหมายของประโยคแล้ว มันจะส่งออกสิ่งที่เรียกว่าบริบทวัตถุ: ชิ้นส่วนของรหัสซอฟต์แวร์ที่ตัวควบคุมอุปกรณ์สามารถใช้ได้ เพื่อให้คำแนะนำในการดำเนินการที่ชัดเจนแก่เครื่อง "ปัญญาประดิษฐ์" จึงมาพร้อมกับซอฟต์แวร์เพิ่มเติม สิ่งนี้จะประเมินเนื้อหาของออบเจ็กต์บริบท และในขณะเดียวกันก็รับข้อมูลเกี่ยวกับตำแหน่งของอุปกรณ์ และสภาพแวดล้อมจากเซ็นเซอร์ต่างๆ ซอฟต์แวร์ประกอบด้วยหน่วยการสร้างสำหรับโซลูชันต่างๆ ที่กำหนดให้กับการดำเนินการเฉพาะ
จากข้อมูลทั้งหมดนี้ โปรแกรมจะสร้างคำสั่ง เช่น วิธีและตำแหน่งที่แขนกริปเปอร์ควรเคลื่อนที่ และส่งไปยังส่วนควบคุมอุปกรณ์ ระบบเซ็นเซอร์จึงระบุตำแหน่งที่ปากกาอยู่บนโต๊ะและเส้นทางใดที่เครื่องต้องเดินไปเพื่อหยิบขึ้นมาและส่งต่อให้บุคคล ซอฟต์แวร์จะค่อยๆ เรียนรู้ว่าโซลูชันใดดีที่สุดสำหรับแต่ละการดำเนินการ และนำความรู้นี้ไปใช้กับการดำเนินการถัดไป
กระบวนการที่ซับซ้อนเหล่านี้ทั้งหมดต้องเกิดขึ้นในเสี้ยววินาที เนื่องจากผู้คนคาดหวังว่าจะได้รับการตอบสนองที่รวดเร็ว และเหนือสิ่งอื่นใด คือ การตอบสนองที่ถูกต้องจากเครื่อง แม้ว่าการรู้จำเสียงพูดจะทำงานได้ดีอยู่แล้วหลังจากใช้งานมานานกว่า 30 ปีแล้ว ยังมีงานวิจัยและพัฒนาอีกมากที่ต้องทำเบื้องหลังการควบคุมด้วยเสียงของเครื่อง จนกว่าวันหนึ่งเราจะสามารถพูดคุยกับเครื่องได้อย่างเป็นธรรมชาติที่สุดเหมือนเป็นเพื่อนบ้านของเรา