Проста молба, кратко изречение – за човешкия мозък е детска игра да разчете какво се има предвид, да установи взаимовръзката и да предизвика съответната реакция. Това е много по-сложно за една машина. Ако искате да управлявате технически устройства с помощта на реч, трябва да предприемете много отделни стъпки.
"Подай ми химикалка!" – много проста команда, която обаче държи компютъра зает във фонов режим. Първо изречената фраза се преобразува в текст. Софтуерът за разпознаване на реч трябва да разпознае, кои думи са включени въз основа на честотните модели, като преодолее много предизвикателства: неясно произношение, думи звучащи по един и същ начин, но с различни значения, различни интонации или диалекти. Като ги сравнява с обширни бази данни съдържащи безброй примери за думи и техните честотни модели, софтуерът разкрива, кои думи са замесени.
Следващата стъпка е да бъде разкрит смисълът на изречението. За тази цел софтуерът изпраща текста към гласов интерфейс, който го проверява за определени ключови думи. Програмистът трябва предварително да дефинира всички необходими термини и команди – т.нар. намерения – както и техните синоними и да определи, какво действие ще се крие зад всяко от тях. Например "подай" се разпознава като молба за преместване на предмет до определено място, а думата "ми" се разбира като лице или цел на действието.
Ако интерфейсът е разпознал значението на изречението, той извежда т.нар. обект на контекста: софтуерен код, с който може да работи управлението на устройството. За да бъдат дадени на машината ясни инструкции за действие, "изкуственият интелект" вече се използва с допълнителен софтуер. Той оценява съдържанието на обекта на контекста и едновременно с това се получава информация от различни сензори за позицията на устройството и заобикалящата го среда. Софтуерът съдържа модули за различни решения, които са причислени към конкретни действия.
От цялата тази информация програмата създава команда за това, как и къде трябва да се движи например едно захващащо рамо и я изпраща към управлението на устройството. Така че сензорната технология разпознава, къде на бюрото се намира химикалката и какъв път трябва да измине машината, за да я вземе и предаде на човек. В този процес софтуерът постепенно научава, кой път на решение е оптимален за всяко действие и прилага това знание за следващото действие.
Всички тези сложни процеси трябва да протичат за части от секундата, защото хората очакват от машината да реагира бързо и най-вече правилно. Въпреки че разпознаването на речта вече работи сравнително добре след повече от 30 години употреба, все още има много изследователска и развойна дейност в областта на гласовото управление на машини – докато един ден ще можем да разговаряме с машина толкова естествено, колкото и със съседа си.