Parler avec des machines

Article du 26 janvier 2018 

Sprachsteuerung

« Siri, quel temps fera-t-il aujourd'hui » « Google, baisse le volume ! » « Alexa, commande-moi encore une fois les baskets bleues ! ». Une technique qui obéit aux ordres, c'est possible depuis un bon moment grâce aux assistants vocaux. Pour que la commande vocale fonctionne sans heurts, des processus de logiciels complexes s'exécutent en arrière-plan. La bonne interprétation des ordres parlés demande un grand travail de préparation, un ordinateur performant sans oublier l'intelligence artificielle.

Une simple demande, une phrase courte – pour le cerveau humain, il est extrêmement facile d'interpréter ce que cela signifie, de faire le lien et de déclencher la réaction correspondante. Les choses se compliquent face à une machine. Avant de pouvoir commander des appareils techniques avec notre voix, de nombreuses étapes différentes sont nécessaires.

Reconnaissance et interprétation vocale

« Donne-moi un stylo ! » – un ordre tout simple, mais qui représente un gros travail en arrière-plan de l'ordinateur. Dans un premier temps, la phrase prononcée est transformée en texte. Le logiciel de reconnaissance vocale doit reconnaître, à l'aide des modèles de fréquence, quels mots sont contenus et surmonter ce faisant de nombreux défis : élocution indistincte, mots identiques avec des significations différentes, différentes intonations ou dialectes. Par la synchronisation avec des bases de données étendues, dans lesquelles sont enregistrés d'innombrables exemples de mots et leurs modèles de fréquence, le logiciel saisit de quel mot il s'agit.

Dans un deuxième temps, il s'agit de saisir la signification de la phrase. Pour ce faire, le logiciel envoie le texte à une interface vocale qui détecte certains mots clé. Au préalable, le programmeur doit déterminer tous les termes et ordres – appelés Intents – ainsi que leurs synonymes et définir quelle action correspondante se cache derrière eux. Par exemple, « donne » est reconnu comme la demande de transporter un objet vers un endroit spécifique, le mot « moi » est compris comme une personne ou un but de l'action.

L'intelligence artificielle trouve la solution optimale

Si l'interface a reconnu la signification de la phrase, elle émet un « objet de contexte » : un code logiciel avec lequel la commande de l'appareil peut opérer. Pour donner à la machine une consigne opératoire sans équivoque, c'est l'« intelligence artificielle » qui entre en jeu par l'intermédiaire d'un autre logiciel. Celui-ci évalue le contenu de l'objet de contexte et reçoit simultanément, par différents capteurs, des informations sur la position de l'appareil et son environnement. Dans le logiciel se trouvent des modules pour différentes méthodes de solution attribuées à certaines actions. De toutes ces informations, le programme établit un ordre, comment et vers où, par exemple, un bras préhenseur doit se diriger et l'envoie à la commande de l'appareil. Les capteurs reconnaissent alors où sur le bureau se trouve le stylo et quel parcours la machine doit effectuer pour le prendre et le remettre à une personne. Ainsi, le logiciel apprend progressivement quelle méthode de solution pour chaque action est optimale et met en pratique ces enseignements lors de la prochaine action.

Tous ces déroulements complexes doivent s'effectuer en une fraction de seconde, car l'être humain attend de la machine une réaction immédiate et surtout, correcte. Alors que la reconnaissance vocale fonctionne déjà relativement bien après 30 ans d'application, la commande vocale de machines demande encore un énorme travail de recherche et de développement avant que nous puissions nous entretenir de manière aussi naturelle avec une machine qu'avec nos voisins.

Pour découvrir comment Festo utilise la technologie de la commande vocale dans le cadre d'un nouveau concept du Bionic Learning Network, rendez-vous au salon de Hanovre 2018 !