간단한 요청, 짧은 문장 - 인간의 두뇌는 의미를 쉽게 해석하고 컨텍스트를 생성하여 적절한 반응을 유발합니다. 이러한 과정은 기계의 경우, 훨씬 더 복잡합니다. 음성으로 기술 장치를 제어하려면 여러 단계를 거쳐야 합니다.
"나한테 펜 좀 줘!" - 아주 간단한 명령이지만, 컴퓨터 백그라운드를 매우 바쁘게 만듭니다. 먼저 사람이 말한 문장이 텍스트로 변환됩니다. 음성 인식 소프트웨어는 주파수 패턴을 사용하여 포함된 단어를 인식하고 프로세스 중 다양한 문제를 해결해야 합니다. 불분명한 발음, 동음이의어, 다양한 억양이나 방언 등이 이에 해당합니다. 수많은 단어 예시와 그 빈도 패턴이 저장된 방대한 데이터베이스와 비교하여 소프트웨어는 어떤 단어가 관련되어 있는지 확인합니다.
그 다음 단계는 문장의 의미를 이해하는 것입니다. 이를 위해 소프트웨어는 특정 키워드를 확인하는 음성 인터페이스로 텍스트를 전송합니다. 프로그래머는 사전에 필요한 모든 용어와 명령, 즉 의도라고도 할 수 있는 것과 동의어를 정의하고, 그 후에 이어져야 하는 작업을 정의해야 합니다. 예를 들어 "줘"라는 것은 물체를 특정 지점으로 운반하라는 요청으로 인식되고 "나한테"라는 단어는 사람 또는 행동의 목표로 이해합니다.
인터페이스가 문장의 의미를 인식하면 소위 컨텍스트 객체, 즉 장치 제어가 작동할 수 있는 소프트웨어 코드를 출력합니다. 기계에 명확한 지침을 제공하기 위해 "인공 지능"이 추가 소프트웨어와 함께 작동합니다. 이는 컨텍스트 객체의 내용을 평가하고, 동시에 다양한 센서로부터 장치의 위치 및 주변 환경에 대한 정보를 수신합니다. 소프트웨어에는 특정 작업에 할당된 다양한 솔루션에 대한 모듈이 포함되어 있습니다.
이 모든 정보로부터 프로그램은 그리퍼 암이 어떻게, 어디로 이동하는지 등 다양한 명령을 작성하고 이것을 장치 제어로 전송합니다. 센서는 책상 위에 펜이 있는 위치와 기계가 펜을 집어 사람에게 전달해야 하는 경로를 인식합니다. 소프트웨어는 각각의 작업에 가장 적합한 솔루션을 점진적으로 학습하여 해당 지식을 다음 작업 시 적용합니다.
인간은 기계에 대해 무엇보다 신속하고 정확한 반응을 기대하기 때문에, 이 모든 복잡한 과정은 순식간에 이루어져야 합니다. 음성 인식은 이미 30년 이상 사용되어 비교적 잘 작동하지만, 기계의 음성 제어 너머에는 여전히 다양한 연구 개발 작업이 남아있습니다. 인간과 대화하듯 기계와 자연스럽게 대화하기 위해서는 아직 넘어야 할 산이 많습니다.