« Siri, quel temps fera-t-il aujourd'hui ? » « Ok, Google, baisse la musique ! » « Alexa, commande-moi encore les baskets bleues ! » La technologie qui obéit à vos ordres vocaux fait depuis longtemps partie de la vie quotidienne, tout comme les assistants vocaux. Pour garantir le bon fonctionnement de la commande vocale, des processus logiciels complexes s'exécutent en arrière-plan. L'interprétation correcte des commandes vocales nécessite beaucoup de travail préparatoire, une puissance de calcul élevée et enfin et surtout une intelligence artificielle.
Une simple demande, une courte phrase : le cerveau humain interprète facilement ce que l'on veut dire, crée la connexion et déclenche une réaction correspondante. C'est beaucoup plus compliqué pour une machine. Si vous souhaitez commander des appareils techniques avec la voix, de nombreuses étapes individuelles doivent être effectuées.
« Donnez-moi un stylo ! » : un ordre très simple, qui est très difficile pour l'ordinateur en arrière-plan. Tout d'abord, la phrase parlée est convertie en texte. Le logiciel de reconnaissance vocale doit reconnaître quels mots sont contenus dans le message à l'aide des modèles de fréquence et relever de nombreux défis : prononciation indistincte, mots identiques avec des significations différentes, des accentuations ou des dialectes différents. En le comparant à des bases de données étendues, dans lesquelles sont stockés d'innombrables exemples de mots et leurs modèles de fréquence, le logiciel comprend de quels mots il s'agit.
L'étape suivante consiste à comprendre le sens de la phrase. Pour ce faire, le logiciel envoie le texte à une interface vocale, qui vérifie la présence de mots-clés spécifiques. À l'avance, le programmeur doit définir tous les termes et commandes nécessaires, les « intentions », ainsi que leurs synonymes, et déterminer quelle action doit être suscitée par chacun. Par exemple, « donne » est reconnu comme la demande de transporter un objet vers un endroit précis, le mot « moi » est compris comme une personne ou comme une destination de l'action.
Une fois que l'interface a reconnu le sens de la phrase, elle génère ce que l'on appelle un objet contextuel : un code logiciel avec lequel la commande de l'appareil peut fonctionner. Afin de donner à la machine des instructions d'action claires, « l'intelligence artificielle » entre désormais en jeu avec un logiciel supplémentaire. Celui-ci évalue le contenu de l'objet contextuel et reçoit en même temps des informations sur la position de l'appareil et sur son environnement de la part de différents capteurs. Le logiciel contient des modules pour différentes méthodes de solution qui sont affectés à certaines actions.
À partir de toutes ces informations, le programme crée une commande indiquant comment et où un bras de préhension doit se déplacer, par exemple, et l'envoie au contrôle de l'appareil. Les capteurs reconnaissent où se trouve le stylo sur le bureau et la façon dont la machine doit procéder pour le ramasser et le remettre à une personne. Le logiciel apprend progressivement quelle solution est la meilleure pour chaque action et applique ces connaissances à l'action suivante.
Tous ces processus complexes doivent avoir lieu en quelques fractions de seconde, car les humains attendent de la machine qu'elle réagisse rapidement et, surtout, correctement. Bien que la reconnaissance vocale fonctionne déjà relativement bien après plus de 30 ans d'utilisation, il reste encore beaucoup de travail de recherche et développement à effectuer dans le domaine de la commande vocale des machines avant que nous puissions un jour parler à une machine aussi naturellement qu'à notre voisin.