"Siri, cum va fi vremea astazi?" "Bine, Google, da muzica mai incet!" "Alexa, comanda-mi din nou adidasii aia albastri!" Aceasta tehnologie a devenit de mult timp parte din viata de zi cu zi cu ajutorul asistentilor vocali. Procese software complexe ruleaza in fundal pentru a asigura buna functionare a controlului prin intermediul limbii. Interpretarea corecta a comenzilor vorbite necesita multa munca de pregatire, performante informatice ridicate si, nu in ultimul rand, inteligenta artificiala.
O cerere simpla, o propozitie scurta - este o joaca de copii pentru creierul uman sa interpreteze ce se vrea sa spuna, sa stabileasca contextul si sa declanseze o reactie corespunzatoare. Acest lucru este mult mai complicat pentru o masina. Daca doriti sa controlati dispozitive tehnice cu ajutorul vorbirii, trebuie parcurse mai multe etape individuale.
"Da-mi un stilou!" - o comanda foarte simpla, dar care tine calculatorul ocupat in fundal. Mai intai, propozitia vorbita este convertita in text. Software-ul de recunoastere a vorbirii trebuie sa recunoasca ce cuvinte sunt incluse pe baza modelelor de frecventa, depasind multe provocari: pronuntie neclara, cuvinte cu acelasi sens, dar cu sensuri diferite, intonatii sau dialecte diferite. Comparandu-le cu baze de date extinse care contin nenumarate exemple de cuvinte si modelele de frecventa ale acestora, software-ul dezvaluie ce cuvinte sunt implicate.
Urmatorul pas este de a deslusi sensul propozitiei. Pentru a face acest lucru, software-ul trimite textul catre o interfata vocala care il verifica pentru anumite cuvinte cheie. in prealabil, programatorul trebuie sa defineasca toti termenii si comenzile necesare - asa-numitele intentii - precum si sinonimele acestora si sa defineasca ce actiune se afla in spatele fiecaruia dintre ele. De exemplu, "da" este recunoscut ca fiind cererea de a transporta un obiect intr-un anumit loc, iar cuvantul "mie" este inteles ca fiind o persoana, respectiv un scop al actiunii.
in cazul in care interfata a recunoscut sensul propozitiei, aceasta emite un asa-numit obiect de context: un cod software cu care poate functiona controlul unitatii. Pentru a oferi masinii instructiuni clare de actiune, "inteligenta artificiala" intra acum in joc cu un software suplimentar. Acesta evalueaza continutul obiectului contextual si primeste simultan informatii de la diversi senzori despre pozitia dispozitivului si imprejurimile acestuia. Software-ul contine module pentru diferite solutii care sunt alocate unor actiuni specifice.
Din toate aceste informatii, programul creeaza o comanda despre cum si unde ar trebui sa se deplaseze, de exemplu, un brat de prindere si o trimite la unitatea de control. Astfel, tehnologia senzorilor recunoaste unde se afla stiloul pe birou si care este calea pe care trebuie sa o urmeze aparatul pentru a-l ridica si a-l inmana unei persoane. in acest proces, software-ul invata treptat care este calea de solutie optima pentru fiecare actiune si aplica aceste cunostinte la urmatoarea actiune.
Toate aceste procese complexe trebuie sa aiba loc in fractiuni de secunda, deoarece oamenii se asteapta ca masina sa reactioneze prompt si, mai ales, corect. Desi recunoasterea vocala functioneaza deja relativ bine dupa mai bine de 30 de ani de utilizare, exista inca multe activitati de cercetare si dezvoltare in spatele controlului vocal al masinilor - pana cand, intr-o zi, vom putea vorbi cu o masina la fel de natural ca si cu vecinul nostru.