Ante un aviso sencillo o una frase corta, el cerebro humano interpreta muy fácilmente qué quieren decir, establece la conexión e inicia la reacción correspondiente. Para una máquina, esto es mucho más complicado. Para que los dispositivos técnicos puedan controlarse por voz, han de darse muchos pasos individuales.
«Dame un bolígrafo» es una orden sencilla que, sin embargo, supone un gran esfuerzo en segundo plano a un ordenador. Primero tiene que transformar en texto la frase pronunciada. El software de reconocimiento de voz debe detectar, tomando como base el patrón de frecuencias, qué palabras se incluyen y superar con maestría numerosos retos: pronunciación poco clara; palabras que suenan igual, pero con diferentes significados; diferentes entonaciones o acentos. Mediante la comparación en numerosas bases de datos en las que se incluyen innumerables ejemplos de palabras con su modelo de frecuencia, el software deduce de qué palabras se trata.
En el siguiente paso es el momento de desentrañar el significado de la frase. Para ello, el software envía el texto a una interfaz de voz que verifica determinadas palabras clave. Previamente, el programador debe establecer todos los términos y órdenes necesarios (los llamados «Intents»), así como sus sinónimos y definir qué acción debe haber detrás de cada uno. Por ejemplo, «Da» se reconoce como una solicitud de transportar un objeto a un determinado lugar. Con «Me» se entiende que hay una persona objetivo de la acción.
Si la interfaz ha reconocido el significado de la oración, genera el denominado «objeto de contexto»: un código de software con el que puede trabajar el control del equipo. Para dar a la máquina unas instrucciones claras, ahora entra en juego con otro software la «inteligencia artificial». Esta valora el contenido del objeto de contexto y recibe al mismo tiempo información de diferentes sensores sobre la posición del equipo y su entorno. El software contiene elementos para diferentes caminos de resolución con determinadas acciones asignadas.
A partir de toda esta información, el programa crea un comando sobre cómo y a dónde debe moverse, por ejemplo, un brazo manipulador, y lo envía a la regulación del equipo. El sistema de sensores detecta entonces dónde está el bolígrafo en la mesa y qué camino debe tomar la máquina para cogerlo y dárselo a una persona. Cuando lo hace, el software va aprendiendo cada vez qué vía de resolución es la óptima para cada acción y aplica estos conocimientos a la siguiente acción.
Todos estos complejos procesos deben llevarse a cabo en fracciones de segundo, ya que la persona espera de la máquina una reacción rápida y, sobre todo, adecuada. Mientras que el reconocimiento de voz, tras más de 30 años de aplicación, funciona relativamente bien, el control por voz de máquinas requiere mucho más trabajo de investigación y desarrollo hasta que podamos comunicarnos con una máquina con la misma naturalidad que con nuestros vecinos.