"Siri, milyen lesz ma az időjárás?” „Oké, Google, halkítsd le a zenét!” „Alexa, rendelj nekem megint kék edzőcipőt!” A hangutasításoknak engedelmeskedő technológia már régóta a mindennapok részévé vált a beszéd alapú asszisztensekkel. A hangvezérlés zökkenőmentes működéséhez bonyolult szoftverfolyamatokat kell futtatni a háttérben. A szóban kiadott parancsok helyes értelmezése sok előkészítő munkát, nagy számítógépes teljesítményt és nem utolsósorban mesterséges intelligenciát igényel.
Egy egyszerű kérés, egy rövid mondat értelmezése gyerekjáték az emberi agy számára, amely azonnal képes felismerni, mire gondoltak, képes megállapítani a kontextust és kiváltani a megfelelő reakciót. A gépek számára ez már sokkal nehezebb feladat. Ha hanggal kívánunk műszaki eszközöket vezérelni, sok egyedi lépésre van szükség.
„Adj nekem egy tollat!”: Ez a nagyon egyszerű kérés igencsak megizzasztja a számítógépeket. Először szöveggé kell alakítania a beszédet. A beszédfelismerő szoftvernek számos kihívást kell leküzdenie, hogy a használt szavakat a gyakorisági mintázatuk alapján azonosítsa: Meg kell értenie, ha nem érthetően beszélnek, értelmeznie kell az azonos hangzású, de különböző jelentésű szavakat, az eltérő hanglejtéseket vagy a dialektusokat. A szoftver az elhangzottakat összeveti a számtalan szót és gyakorisági mintát tartalmazó óriási adatbázisokkal, és kitalálja, hogy mit mondtak neki.
A következő lépésben a mondat jelentését kell meghatároznia. Ehhez a szoftver elküldi a szöveget egy nyelvinterfésznek, amely adott kulcsszavakat keres. A programozóknak ehhez előzetesen meg kell határozniuk az összes szükséges kifejezést és parancsot (intent-eket) valamint azok szinonimáit, továbbá az azok által kiváltott műveleteket. Így képes például az „adj” szót kérésnek értelmezni, hogy egy tárgyat egy bizonyos helyre kell szállítani, a „nekem” szót pedig személyként vagy a cselekvés céljának.
Ha az interfész felismerte a mondat jelentését, akkor egy úgynevezett kontextusobjektumot küld tovább, egy szoftverkódot, amely a készülék vezérléséhez szükséges. Annak érdekében, hogy a gép egyértelmű cselekvési utasításokat kapjon, egy újabb szoftver mesterséges intelligenciát alkalmaz. Ez kiértékeli a kontextusobjektum tartalmát, és ezzel párhuzamosan különböző érzékelőktől kap információkat a készülék helyzetéről és környezetéről. A szoftver különböző modulokat tartalmaz a különböző megoldásokhoz, amelyek adott műveletekhez vannak rendelve.
A program mindezen információkból egy parancsot hoz létre arra vonatkozóan, hogy például egy megfogó hogyan és merre mozogjon, majd elküldi azt a készülék vezérlőjének. Az érzékelőtechnika tehát felismeri, hogy hol van az asztalon a toll, és kiszámítja, milyen útvonalat kell megtennie a készüléknek, hogy felvegye és átadja azt egy személynek. A szoftver folyamatosan tanulja, hogy az egyes cselekvésekhez melyik az optimális megoldás és a következő alkalommal már ezt a tudást alkalmazza.
Ennek a sok bonyolult folyamatnak a másodperc töredéke alatt kell lefutni, mert az emberek azt várják, hogy a gép azonnal és mindenekelőtt helyesen reagáljon. Bár a beszédfelismerés a már több mint 30 éve zajló fejlesztéseknek köszönhetően viszonylag jól működik, a gépek hangvezérléséhez még rengeteg kutatás és fejlesztés szükséges. Talán egy nap majd ugyanolyan természetesen beszélgethetünk egy géppel, mint a szomszédunkkal.