"Siri, kakvo će vrijeme biti danas?" "OK, Google, stišaj glazbu!" "Alexa, naruči mi opet plave tenisice!" Zahvaljujući glasovnim pomoćnicima tehnologija koja sluša svaku riječ odavno je postala dio svakodnevice. Kako bi upravljanje glasom besprijekorno radilo, u pozadini rade složeni softverski procesi. Točno tumačenje izgovorenih naredbi zahtijeva mnogo pripremnog rada, veliku računalnu snagu te umjetnu inteligenciju.
Jednostavan zahtjev, kratka rečenica – ljudskom je mozgu iznimno lako protumačiti što je netko mislio, uspostaviti vezu i potaknuti odgovarajuću reakciju. Pokazalo se da je to strojevima puno kompliciranije. Ako želite upravljati tehničkim uređajima glasom, potrebno je mnogo pojedinačnih koraka.
"Daj mi olovku!" – ovo može biti sasvim jednostavna naredba, ali zbog nje će računalo u pozadini naporno raditi. Izgovorena rečenica najprije se pretvara u tekst. Softver za prepoznavanje govora mora svladati mnoge izazove kako bi na temelju uzoraka frekvencije identificirao izgovorene riječi: nejasan izgovor, riječi koje zvuče slično, ali imaju različito značenje, različite intonacije ili dijalekti. Uspoređujući riječi s opsežnim bazama podataka u kojima je pohranjeno nebrojeno primjera riječi i njihovih uzoraka frekvencije, softver utvrđuje o kojim je riječima riječ.
Sljedeći korak je određivanje značenja rečenice. Za to softver šalje tekst glasovnom sučelju, koje provjerava ima li u njemu određenih ključnih riječi. Prije toga, programer mora utvrditi sve potrebne pojmove i naredbe – takozvane Intents – kao i njihove sinonime, te definirati koja se radnja krije iza svake od njih. Na primjer, "daj" se identificira kao zahtjev za transportom predmeta na određeno mjesto, dok se riječ "meni" shvaća kao osoba ili cilj radnje.
Nakon što sučelje identificira značenje rečenice, isporučuje takozvani objekt konteksta, softverski kod kojim sustav upravljanja uređajem može raditi. Kako bi stroju dala jasne upute, sada s pomoću drugog softvera u igru stupa umjetna inteligencija. Ona procjenjuje sadržaj objekta konteksta i istodobno dobiva informacije od raznih senzora o položaju uređaja i njegovoj okolini. Softver sadrži module za različita rješenja koja su dodijeljena određenim radnjama.
Program se koristi svim tim informacijama za konstruiranje naredbe, na primjer kako i kamo bi se ruka za hvatanje trebala kretati i šalje je kontroleru uređaja. Senzori tako detektiraju gdje se na stolu nalazi olovka i kojim putem stroj mora proći da bi je podignuo i predao osobi. Softver postupno uči koje je rješenje najbolje za pojedinu radnju i primjenjuje to znanje na sljedeću radnju.
Svi ti složeni procesi moraju se zbivati u djelićima sekunde jer ljudi očekuju brzu i prije svega točnu reakciju stroja. Iako nakon više od 30 godina primjene prepoznavanje glasa funkcionira relativno dobro, glasovno upravljanje strojeva još čekaju brojna istraživanja i razvoj – sve dok jednom ne budemo mogli razgovarati sa strojem jednako prirodno kao i sa susjedom.