Hablar con máquinas

Artículo del 26 de enero de 2018 

Sprachsteuerung

«Siri, ¿qué tiempo va a hacer hoy?», «Ok, Google, baja la música», «Alexa, pídeme las zapatillas azules»: con los asistentes por voz, la técnica que obedece a la palabra lleva ya mucho tiempo convertida en algo cotidiano. Para que el control por voz funcione sin problemas, en un segundo plano operan complejos procesos de software. La interpretación adecuada de los comandos orales requiere mucho trabajo previo, una gran potencia de los ordenadores y, no menos importante, inteligencia artificial.

Ante un aviso sencillo o una frase corta, el cerebro humano interpreta muy fácilmente qué quieren decir, establece la conexión e inicia la reacción correspondiente. Para una máquina, esto es mucho más complicado. Para que los dispositivos técnicos puedan controlarse por voz, han de darse muchos pasos individuales.

Detección e interpretación de la voz

«Dame un bolígrafo» es una orden sencilla que, sin embargo, supone un gran esfuerzo en segundo plano a un ordenador. Primero tiene que transformar en texto la frase pronunciada. El software de detección de voz, en función del modelo de frecuencia, debe detectar qué palabras se incluyen y, para ello, afrontar varios retos: pronunciaciones poco claras, palabras que suenan igual pero tienen significados diferentes, diferentes entonaciones o acentos. Mediante la comparación en numerosas bases de datos en las que se incluyen innumerables ejemplos de palabras con su modelo de frecuencia, el software deduce de qué palabras se trata.

En el siguiente paso es el momento de desentrañar el significado de la frase. Para ello, el software envía el texto a una interfaz de voz que verifica determinadas palabras clave. Previamente, el programador debe establecer todos los términos y órdenes necesarios (los llamados «Intents»), así como sus sinónimos y definir qué acción debe haber detrás de cada uno. Por ejemplo, «Dame» se reconoce como una solicitud de transportar un objeto a un determinado lugar. Con «Me» se entiende que hay una persona objetivo de la acción.

La inteligencia artificial encuentra la solución óptima

Si la interfaz ha reconocido el significado de la frase, aparece un llamado «objeto de contexto»: es un código de software que se puede usar para controlar el dispositivo. Para dar a la máquina unas instrucciones claras, ahora entra en juego con otro software la «inteligencia artificial». Esta valora el contenido del objeto de contexto y recibe al mismo tiempo información de diferentes sensores sobre la posición del equipo y su entorno. El software contiene elementos para diferentes caminos de resolución con determinadas acciones asignadas. A partir de toda esta información, el programa crea un comando sobre cómo y a dónde debe moverse, por ejemplo, un brazo manipulador, y lo envía a la regulación del equipo. El sistema de sensores detecta entonces dónde está el bolígrafo en la mesa y qué camino debe tomar la máquina para cogerlo y dárselo a una persona. Cuando lo hace, el software va aprendiendo cada vez qué vía de resolución es la óptima para cada acción y aplica estos conocimientos a la siguiente acción.

Todos estos complejos procesos deben llevarse a cabo en fracciones de segundo, ya que la persona espera de la máquina una reacción rápida y, sobre todo, adecuada. Mientras que el reconocimiento de voz, tras más de 30 años de aplicación, funciona relativamente bien, el control por voz de máquinas requiere mucho más trabajo de investigación y desarrollo hasta llegar a que podamos comunicarnos con una máquina con la misma naturalidad que con nuestros vecinos.

En la feria de Hanóver de 2018 podrá ver cómo emplea Festo la tecnología del control por voz en un nuevo concepto de la Bionic Learning Network. ¡No se lo pierda!