“Siri, como vai estar o tempo hoje?” “Ok, Google, baixe a música!” “Alexa, compre as sandálias azuis outra vez!" Os assistentes de voz já fizeram com que a tecnologia responda às palavras. Isso faz parte da vida diária. Para que o controle de voz funcione naturalmente, os processos de software complexos são executados em segundo plano. A interpretação correta dos comandos por voz requer muito trabalho preparatório, alto poder de computação e, por último, mas não menos importante, inteligência artificial.
Um pedido simples ou uma frase curta - o cérebro humano interpreta facilmente o que queremos dizer, estabelece a conexão e inicia a reação apropriada. Isso é muito mais complicado para uma máquina. Se deseja controlar os dispositivos técnicos pela voz, é preciso superar diversas fases individuais.
"Pegue uma caneta!" - um comando muito simples, representa muito trabalho ao computador em segundo plano. Em primeiro lugar, a frase falada é convertida em texto. O software de reconhecimento de voz precisa ultrapassar diversos desafios para identificar as palavras por padrões de frequência: a pronúncia pouco clara, palavras com sons similares e diferentes significados, além de sotaques ou linguagens diferentes. Ao realizar a comparação com extensas bases de dados, em que são salvos inúmeros exemplos de palavras e padrões de frequência, o software distingue quais são as palavras que estão sendo ditas.
O próximo passo é entender o significado da frase. Para fazer isto, o software envia o texto à interface de linguagem, que o analisa por palavras-chave. Antecipadamente, o programador deve determinar todos os termos e comandos necessários (as chamadas intenções), e os sinônimos, além de definir que ação deverá estar por detrás de cada caso. Por exemplo, "dar" é identificado como o pedido para transportar um objeto para um determinado local, enquanto a palavra "eu" é compreendida como sendo uma pessoa ou o objeto de uma ação.
Assim que a interface identifica o significado da frase, ela fornece um objeto do contexto, que é um código de software com o qual o sistema de controle do dispositivo pode funcionar. Para dar instruções claras à máquina, a "inteligência artificial" entra em jogo com outro software. Ele avalia o conteúdo do objeto do contexto e, ao mesmo tempo, obtém informações de diversos sensores sobre a posição do aparelho e o ambiente. O software contém módulos para diferentes soluções, que são atribuídos a determinadas ações.
O programa utiliza todas estas informações para construir um comando, por exemplo, para ditar como e onde o braço da garra deve se mover e o envia para o controle do dispositivo. A tecnologia de sensores detecta a localização da caneta na mesa e o trajeto que a máquina deverá escolher para pegá-la e entregá-la. Dessa forma, o software aprende, gradualmente, que método de soluções é melhor para cada ação e aplica esse conhecimento à próxima ação.
Todas essas sequências complexas devem ser feitas em frações de segundo. O cliente espera agilidade e, acima de tudo, a reação correta da máquina. Embora o reconhecimento de voz funcione muito bem após 30 anos de utilização, ainda existe muito trabalho de pesquisa e desenvolvimento para o controle de voz das máquinas. Em determinado momento, poderemos conversar com uma máquina da mesma forma que fazemos com o nosso colega.