"Siri, какво ще е времето днес?" "Добре, Google, намали музиката!" "Alexa, поръчай ми отново тези сини маратонки!" Технологията, която се подчинява на всяка ваша дума, отдавна е станала част от ежедневието с гласовите асистенти. За да се гарантира безпроблемното функциониране на управлението посредством езика, във фонов режим протичат комплексни софтуерни процеси. Правилното интерпретиране на гласови команди изисква много подготвителна работа, висока производителност на компютъра и не на последно място изкуствен интелект.
Проста молба, кратко изречение – за човешкия мозък е детска игра да разчете какво се има предвид, да установи взаимовръзката и да предизвика съответната реакция. Това е много по-сложно за една машина. Ако искате да управлявате технически устройства с помощта на реч, трябва да предприемете много отделни стъпки.
"Подай ми химикалка!" – много проста команда, която обаче държи компютъра зает във фонов режим. Първо изречената фраза се преобразува в текст. Софтуерът за разпознаване на реч трябва да разпознае, кои думи са включени въз основа на честотните модели, като преодолее много предизвикателства: неясно произношение, думи звучащи по един и същ начин, но с различни значения, различни интонации или диалекти. Като ги сравнява с обширни бази данни съдържащи безброй примери за думи и техните честотни модели, софтуерът разкрива, кои думи са замесени.
Следващата стъпка е да бъде разкрит смисълът на изречението. За тази цел софтуерът изпраща текста към гласов интерфейс, който го проверява за определени ключови думи. Програмистът трябва предварително да дефинира всички необходими термини и команди – т.нар. намерения – както и техните синоними и да определи, какво действие ще се крие зад всяко от тях. Например "подай" се разпознава като молба за преместване на предмет до определено място, а думата "ми" се разбира като лице или цел на действието.
Ако интерфейсът е разпознал значението на изречението, той извежда т.нар. обект на контекста: софтуерен код, с който може да работи управлението на устройството. За да бъдат дадени на машината ясни инструкции за действие, "изкуственият интелект" вече се използва с допълнителен софтуер. Той оценява съдържанието на обекта на контекста и едновременно с това се получава информация от различни сензори за позицията на устройството и заобикалящата го среда. Софтуерът съдържа модули за различни решения, които са причислени към конкретни действия.
От цялата тази информация програмата създава команда за това, как и къде трябва да се движи например едно захващащо рамо и я изпраща към управлението на устройството. Така че сензорната технология разпознава, къде на бюрото се намира химикалката и какъв път трябва да измине машината, за да я вземе и предаде на човек. В този процес софтуерът постепенно научава, кой път на решение е оптимален за всяко действие и прилага това знание за следващото действие.
Всички тези сложни процеси трябва да протичат за части от секундата, защото хората очакват от машината да реагира бързо и най-вече правилно. Въпреки че разпознаването на речта вече работи сравнително добре след повече от 30 години употреба, все още има много изследователска и развойна дейност в областта на гласовото управление на машини – докато един ден ще можем да разговаряме с машина толкова естествено, колкото и със съседа си.