Jednoduchá požiadavka, krátka veta. Ľudský mozog ľahko interpretuje, čo sa tým myslí, vytvára si súvislosti a vyvoláva zodpovedajúcu reakciu. Pre stroj je to oveľa komplikovanejšie. Ak chcete ovládať technické zariadenia hlasom, je potrebné urobiť veľa jednotlivých krokov.

Rozpoznávať a interpretovať reč

„Podaj mi ceruzku!“ Je to veľmi jednoduchý príkaz, ktorý však počítač veľmi zaťaží. Najskôr sa hovorená veta prevedie na text. Softvér na rozpoznávanie reči musí pomocou frekvenčných vzorcov rozpoznať jednotlivé slová a prekonať pritom množstvo problémov: nejasnú výslovnosť, identické slová s rôznym významom, rôzny prízvuk alebo dialekty. Porovnaním s rozsiahlymi databázami, v ktorých je uložené nespočetné množstvo príkladov slov a ich frekvenčných vzorcov, softvér odhalí, o ktoré slová ide.

Ďalším krokom je pochopenie významu vety. Softvér preto odošle text do hlasového rozhrania, ktoré skontroluje prítomnosť určitých kľúčových slov. Programátor musí vopred definovať všetky potrebné pojmy a príkazy, takzvané „intents“, ako aj ich synonymá. Potom musí definovať, ktorá akcia je s nimi spojená. Napríklad „podaj“ sa rozpozná ako požiadavka na prepravu objektu na určité miesto, slovo „mi“ sa chápe ako osoba, prípadne cieľ akcie.

Umelá inteligencia nachádza optimálne riešenie

Keď rozhranie rozpozná význam vety, výstupom je takzvaný kontextový objekt, softvérový kód, s ktorým môže pracovať riadenie. Aby bolo možné stroju poskytnúť jasné pokyny, nastupuje na rad s ďalším softvérom „umelá inteligencia“. Vyhodnocuje obsah kontextového objektu a súčasne z rôznych snímačov prijíma informácie o polohe zariadenia a jeho okolí. Softvér obsahuje moduly pre rôzne riešenia, ktoré sú priradené konkrétnym akciám.

Zo všetkých týchto informácií program zostaví príkaz o tom, ako a kam by sa malo napríklad pohybovať rameno uchopovača, a odošle ho riadeniu zariadenia. Snímače rozpoznávajú aj to, kde na stole sa nachádza ceruzka a po ktorej dráhe musí stroj ísť, aby ju zdvihol a odovzdal nejakej osobe. Softvér sa postupne učí, ktoré riešenie je pre každú akciu najlepšie, a tieto poznatky použije pri ďalšej akcii.

Všetky tieto zložité procesy musia prebiehať v zlomku sekundy, pretože ľudia očakávajú pohotovú a predovšetkým správnu reakciu stroja. Aj keď sa rozpoznávanie reči využíva už viac ako 30 rokov, riadenie strojov rečou si vyžaduje ešte veľa výskumu a vývoja, až kým sa v určitom bode nebudeme môcť so strojmi rozprávať tak prirodzene ako so susedmi.