Um pedido simples, uma frase curta - o cérebro humano interpreta facilmente o que queremos dizer, estabelece a conexão e inicia a reação apropriada. Isto é muito mais complicado para uma máquina. Se desejar controlar os dispositivos técnicos através da voz, precisa passar várias fases individuais.

Reconhecer e interpretar a linguagem

"Dá-me uma caneta!" - um comando muito simples, que dá muito trabalho ao computador em segundo plano. Em primeiro lugar, a frase falada é convertida em texto. O software de reconhecimento de voz tem de ultrapassar vários desafios para identificar as palavras através dos padrões de frequência: a pronúncia pouco clara, as palavras de som similar com diferentes significados e tons ou dialetos diferentes. Ao realizar a comparação com extensas bases de dados, em que são guardados infinitos exemplos de palavras e padrões de frequência, o software distingue que palavras estão envolvidas.

O próximo passo é entender o significado da frase. Para fazer isto, o software envia o texto à interface de linguagem, que o analisa relativamente a palavras-chave. Antecipadamente, o programador deve determinar todos os termos e comandos necessários - as chamadas intenções -, e os sinónimos, e definir que ação deverá estar por detrás de cada caso. Por exemplo, "dar" é identificado como o pedido para transportar um objeto para um determinado local, enquanto a palavra "eu" é compreendida como sendo uma pessoa ou o objeto de uma ação.

A inteligência artificial encontra a solução ideal

Assim que a interface identifica o significado da frase, ela fornece um objeto do contexto, que é um código de software com o qual o sistema de controlo do dispositivo pode funcionar. Para dar instruções claras à máquina, a "inteligência artificial" entra em jogo com outro software. Este avalia o conteúdo do objeto do contexto e, ao mesmo tempo, obtém informações de vários sensores sobre a posição do aparelho e o ambiente. O software contém módulos para diferentes soluções, que são atribuídos a determinadas ações.

O programa usa todas estas informações para construir um comando, por exemplo, para ditar como e onde o braço da garra deve mover e envia-o para o controlo do dispositivo. A tecnologia de sensores deteta onde a caneta está na mesa, e que trajeto a máquina deverá escolher para pegá-la e entregá-la. Desta forma, o software aprende gradualmente que método de soluções é o melhor para cada ação e aplica este conhecimento à ação seguinte.

Todas estas sequências complexas devem ser feitas em frações de segundo. O cliente espera prontidão e, acima de tudo, a reação correta da máquina. Embora o reconhecimento de voz funcione muito bem após 30 anos de utilização, ainda existe muito trabalho de pesquisa e desenvolvimento por trás do controlo de voz das máquinas. Em determinado momento, poderemos conversar com uma máquina da mesma forma que fazemos com o nosso vizinho.