„Siri, kakvo će vreme biti danas?“ „OK, Google, stišaj muziku!“ „Alexa, naruči mi opet plave patike!“ Zahvaljujući glasovnim asistentima tehnologija koja sluša svaku reč odavno je postala deo svakodnevice. Da bi upravljanje glasom besprekorno funkcionisalo, u pozadini rade složeni softverski procesi. Pravilno tumačenje izgovorenih naredbi zahteva mnogo pripremnog rada, veliku računarsku snagu i veštačku inteligenciju.
Jednostavan zahtev, kratka rečenica – ljudskom je mozgu izuzetno lako da protumači šta je neko mislio, da uspostavi vezu i podstaknu odgovarajuću reakciju. Pokazalo se da je to mašinama mnogo komplikovanije. Ako želite upravljati tehničkim uređajima glasom, potrebno je mnogo pojedinačnih koraka.
„Daj mi olovku!“ – ovo može biti sasvim jednostavna naredba, ali zbog nje će računar u pozadini naporno raditi. Izgovorena rečenica najpre se pretvara u tekst. Softver za prepoznavanje govora mora savladati mnoge izazove kako bi na osnovu uzoraka frekvencije identifikovao izgovorene reči: nejasan izgovor, reči koje zvuče slično, ali imaju različito značenje, različite intonacije ili dijalekti. Upoređujući reči sa opsežnim bazama podataka u kojima je uskladišteno nebrojeno primera reči i njihovih uzoraka frekvencije, softver utvrđuje o kojim se rečima radi.
Sledeći korak je određivanje značenja rečenice. Za to softver šalje tekst glasovnom interfejsu, koji proverava da li ima u njemu određenih ključnih reči. Pre toga, programer mora utvrditi sve potrebne pojmove i naredbe – takozvane Intents – kao i njihove sinonime, i definisati koja se radnja krije iza svakog od njih. Na primer, „daj“ se identifikuje kao zahtev za transportom predmeta na određeno mesto, dok se reč „meni“ shvata kao osoba ili cilj radnje.
Nakon što interfejs identifikuje značenje rečenice, isporučuje takozvani objekat konteksta, softverski kod sa kojim sistem upravljanja uređajem može raditi. Kako bi mašini dala jasne uputstva, sada pomoću drugog softvera u igru stupa veštačka inteligencija. Ona procenjuje sadržaj objekta konteksta i istovremeno dobija informacije od raznih senzora o položaju uređaja i njegovoj okolini. Softver sadrži module za različita rešenja koja su dodeljena određenim radnjama.
Program koristi sve te informacije za konstruisanje naredbe, na primer kako i gde bi ruka za hvatanje trebalo da se kreće i šalje je kontroleru uređaja. Senzori tako detektuju gde se na stolu nalazi olovka i kojim putem mašina mora proći da bi je podigla i predala osobi. Softver postepeno uči koje je rešenje najbolje za pojedinu radnju i primenjuje to znanje na sledeću radnju.
Svi ti složeni procesi moraju se odvijati u delićima sekunde, jer ljudi očekuju brzu i pre svega ispravnu reakciju mašine. Iako nakon više od 30 godina primene prepoznavanje glasa funkcioniše relativno dobro, glasovno upravljanje mašina još uvek čekaju brojna istraživanja i razvoj – sve dok jednom ne budemo u mogućnosti razgovarati sa mašinom jednako prirodno kao i sa komšijom.