"Siri, come va il tempo oggi?" "Ok, Google, abbassa la musica!" "Alexa, ordinami di nuovo le scarpe da ginnastica blu!" La tecnologia che obbedisce a ogni parola è diventata da tempo parte della vita di tutti i giorni con gli assistenti vocali. Processi software complessi vengono eseguiti in background per fare in modo che il controllo vocale funzioni senza problemi. La corretta interpretazione dei comandi vocali richiede molto lavoro preparatorio, un'elevata potenza di calcolo e, non ultimo, intelligenza artificiale.
Una richiesta semplice, una frase breve: il cervello umano interpreta facilmente ciò che si intende, crea il contesto e innesca una reazione corrispondente. Per una macchina tutto questo è molto più complicato. Per poter controllare dispositivi tecnici tramite la voce, sono necessari molti singoli passaggi.
"Dammi una penna!". Un comando molto semplice come questo mantiene fortemente occupato il computer in background. Per prima cosa, la frase pronunciata viene convertita in testo. Il software di riconoscimento vocale deve riconoscere quali parole sono contenute sulla base degli schemi di frequenza e, quindi, superare diversi ostacoli: pronuncia indistinta, parole identiche con significati diversi, accenti o dialetti diversi. Confrontando la frase con database enormi, in cui sono memorizzati innumerevoli esempi di parole e i loro modelli di frequenza, il software scopre di quali parole si tratta.
Il passo successivo è quello di capire il significato della frase. A tal fine, il software invia il testo a un'interfaccia vocale, che verifica la presenza di determinate parole chiave. Il programmatore deve definire anticipatamente tutti i termini e i comandi necessari, i cosiddetti Intents, nonché i loro sinonimi e definire quale azione dovrebbe esserci dietro. Ad esempio, la prima parte di "Dammi", ossia "Da", viene riconosciuta come una richiesta di trasportare un oggetto fino a un certo punto, mentre il suffisso "[m]mi" viene inteso come una persona o come obiettivo dell'azione.
Una volta che l'interfaccia ha riconosciuto il significato della frase, genera un cosiddetto oggetto contesto: un codice software con il quale il controller del dispositivo può lavorare. Per poter dare istruzioni chiare alla macchina, "l'intelligenza artificiale" mette in campo qui un software aggiuntivo. Questo software analizza il contenuto dell'oggetto di contesto e riceve simultaneamente informazioni sulla posizione del dispositivo e su ciò che gli sta intorno da vari sensori. Il software contiene moduli per diversi metodi di soluzione, che vengono assegnati ad azioni specifiche.
Partendo da tutte queste informazioni, il programma crea un comando su come e dove, ad esempio, deve muoversi un braccio di presa e lo invia al controllo del dispositivo. I sensori riconoscono dove si trova la penna sulla scrivania e quale percorso deve seguire la macchina per raccoglierla e consegnarla a una persona. Il software apprende gradualmente quale soluzione è la migliore per ciascuna azione e applica questa conoscenza all'azione successiva.
Tutti questi complessi processi devono avvenire in frazioni di secondo, perché le persone si aspettano una reazione pronta e, soprattutto, corretta dalla macchina. Sebbene il riconoscimento vocale funzioni relativamente bene dopo più di 30 anni di utilizzo, c'è ancora molto lavoro di ricerca e sviluppo dietro il controllo vocale delle macchine, fino a quando, un bel giorno, potremo parlare a una macchina nel modo più naturale possibile come con i nostri vicini.