„Siri, jaké je dnes počasí?“ „Dobře, Google, ztiš hudbu!“ „Alexo, objednej mi znovu modré tenisky!“ Technika s hlasovými asistenty poslouchající na slovo se již dávno stala součástí každodenního života. Aby ovládání hlasem hladce fungovalo, běží na pozadí složité softwarové procesy. Správná interpretace mluvených povelů vyžaduje spoustu přípravných prací, silný výpočetní výkon a v neposlední řadě umělou inteligenci.
Jednoduchý požadavek, krátká věta - lidský mozek snadno interpretuje, co je myšleno, vytváří kontext a spouští odpovídající reakci. Pro stroj je to mnohem složitější. Chcete-li ovládat technická zařízení hlasem, je třeba provést mnoho jednotlivých kroků.
„Dej mi pero!“ - velmi jednoduchý příkaz, ale silná zátěž pro počítač na pozadí. Nejprve se řečená věta převede na text. Software pro rozpoznávání řeči musí používat frekvenční vzorce k rozpoznání, jaká slova jsou obsažena, a musí zvládat mnohé problémy: nezřetelná výslovnost, stejná slova s různými významy, různými akcenty nebo dialekty. Porovnáním s rozsáhlými databázemi, ve kterých je uloženo bezpočet příkladů slov a jejich frekvenční vzorce, software odhalí, o která slova se jedná.
Dalším krokem je pochopení významu věty. Za tímto účelem software odešle text do jazykového rozhraní, které jej zkontroluje na určitá klíčová slova. Programátor musí předem definovat všechny nezbytné termíny a příkazy - takzvané záměry - a také jejich synonyma a definovat, která akce by za nimi měla být. Například „dej“ je rozpoznáno jako požadavek na transport předmětu do určitého bodu, slovo „mě“ je chápáno jako osoba nebo jako cíl akce.
Jakmile rozhraní rozpozná význam věty, vydá takzvaný kontextový objekt: softwarový kód, se kterým může řídicí systém zařízení pracovat. Do hry vstupuje „umělá inteligence“ s dalším softwarem, aby stroj dostal jasné pokyny. Obsah kontextového objektu se vyhodnocuje a současně se z různých čidel přijímá informace o poloze zařízení a jeho okolí. Software obsahuje stavební prvky pro různá řešení, která jsou přiřazena ke konkrétním akcím.
Ze všech těchto informací program vytvoří příkaz o tom, jak a kde by se mělo pohybovat například rameno chapadla, a odešle jej do řídicího systému zařízení. Čidla rozpoznají, kde na stole je pero a jakou cestou se musí stroj vydat, aby ho uchopil a předal osobě. Software se stále učí, které řešení je pro každou akci nejlepší, a tyto znalosti aplikuje na další akci.
Všechny tyto složité procesy musí probíhat ve zlomcích sekundy, protože lidé očekávají pohotovou a především správnou reakci stroje. Zatímco rozpoznávání řeči funguje po více než 30 letech používání relativně dobře, pro hlasové ovládání strojů je stále potřeba hodně práce ve výzkumu a vývoji - než se kdesi v budoucnu budeme moci bavit se strojem tak přirozeně, jako se sousedy.