「Siri,今天天氣如何?」 「好的,Google,把音樂調小聲一點!」 「Alexa,再幫我訂一雙那款藍色運動鞋!」 這些語音回應技術化身為語音助手,早已成為我們日常生活的一部分。語音控制之所以能順利執行,歸功於其背後運作的複雜軟體程式。若要正確解讀語音指令,需要許多事前準備工作、高性能電腦及人工智慧,其中缺一不可。
人腦可以不費吹灰之力地解讀一個簡單的要求、一個短句,建立邏輯關聯,並對其做出回應。但對機器而言,此過程相當複雜。要想透過語音來控制技術設備,必須經歷幾項步驟。
「給我一枝筆!」 像這樣一句簡單的指令,背後的電腦處理流程卻相當複雜。首先,要將這句語音指令轉換為文字。在透過頻率模式辨識詞語指令的過程中,語言辨識軟體必須克服許多挑戰,例如模糊的發音、同音異義詞以及不同的音調或方言等。透過將這些語句和大量詞彙範例、及對應頻率模式的龐大資料庫進行比對,可判斷出指令所使用的具體語句。
下一步是推論句子的涵義。因此,語言辨識軟體會將文字傳送至語言介面,語言介面會比對是否含有特定關鍵字。在此之前,程式設計人員必須事先確定所有必要的術語與命令 (稱為「意圖」) 及它們的同義詞,並定義其代表的行為。例如,「給」會被辨識為將一個物體傳送至某個特定位置的請求,而「我」則會被解讀為「給」這個動作的對象,即某個人或目標。
一旦語言介面辨識句子的涵義,就會提供上下文對象,即設備控制系統所需的軟體代碼。為了傳達一個清晰的指令到機器,人工智慧要開始使用其他軟體。此軟體可以分析上下文對象的內容,同時可透過不同的感測器收集設備位置與環境的資訊。軟體中包含許多模組,其中含有指定給特定動作的不同解決方案。
程式綜合所有資訊建構一項命令 (例如,機械手臂該如何運動及向哪個方向運動),再將命令傳送到設備控制器。感測器技術會根據命令辨識鉛筆在書桌上的具體位置,及機器要採取何種路線才能將它拿起,並傳遞給某個人。軟體逐漸學習適合各種動作的最佳解決方案,並在下一次執行動作時加以運用。
所有複雜的流程必須瞬間完成,因為人類希望設備能夠迅速做出正確回應。經過三十年的實際施行,語音辨識功能已相對穩定,但要讓人類與機器如與鄰居般交流自如,在機器語音控制方面還需要更多的研究與開發。