機械との会話

簡単な要求や短い文章 – 人間の脳はいとも簡単に意味を解釈、文脈を確立し適切に対応します。機械の場合はかなり複雑です。技術的なデバイスを音声で制御したい場合、多くの個別ステップを踏む必要があります。

言語を認識して解釈

"ペンをください。" – 非常にシンプルなコマンドですがバックグラウンドではコンピュータが非常に多くの処理を実行しています。まず話した文章をテキストに変換します。音声認識ソフトウェアは頻度パターンで含まれている単語を認識するために、不明瞭な発音,　同音異句, アクセントや方言など多くの課題を克服しなければなりません。豊富な語句とその頻度パターンが保存されている膨大なデータベースを比較することでソフトウェアはどの単語が関連しているかを明らかにします。

次のステップは文の意味の理解です。これを実行するためにソフトウェアはテキストを音声インタフェースへ送信、音声インタフェースは特定のキーワードを確認します。プログラマーは必要な全ての用語とコマンド(いわゆるインテント)とその同義語を事前に定義し、それらの背後にあるアクションを取り決めておく必要があります。例えば"与える"は物を特定のポイントに移動する要求として認識され、"私に"という単語は人やアクションの目標として理解されます。

人工知能が見つける最適なソリューション

インタフェースが文言の意味を認識するといわゆるコンテキストオブジェクトを出力します。これはデバイスの制御が機能するソフトウェアコードです。機械に明確な行動指示を与えるために、"人工知能"がソフトウェアを利用して機能させるようになります。これがコンテキストオブジェクトのコンテンツを評価し、同時に様々なセンサからデバイスの位置や周囲の状況に関する情報を受信します。このソフトウェアには特定のアクションに割り当てられた様々なソリューションのためのモジュールが含まれています。

プログラムはいかに, どこへグリッパアームを移動させるといったコマンドを構成するためにこの情報全てを使いそれをデバイスコントローラに送ります。センサテクノロジーがペンが机のどこにあるか、そして機械がどういった経路でペンを拾い人に手渡すかを認識します。その過程でソフトウェアは各アクションに最適なソリューションを徐々に学習し、その知識を次のアクションに適用します。

人は機械に対しスピーディで何よりも正確な反応を期待するため、これらの複雑なプロセスを全て1秒未満で実行する必要があります。音声認識は30年以上の使用実績があり比較的うまく機能していますが、機械の音声制御についてはいまだ多くの研究開発が行われています – いつの日か隣人と話すように自然に機械に話しかけることができるようになるでしょう。