Egy egyszerű kérés, egy rövid mondat értelmezése gyerekjáték az emberi agy számára, amely azonnal képes felismerni, mire gondoltak, képes megállapítani a kontextust és kiváltani a megfelelő reakciót. A gépek számára ez már sokkal nehezebb feladat. Ha hanggal kívánunk műszaki eszközöket vezérelni, sok egyedi lépésre van szükség.

A nyelv felismerése és értelmezése

„Adj nekem egy tollat!”: Ez a nagyon egyszerű kérés igencsak megizzasztja a számítógépeket. Először szöveggé kell alakítania a beszédet. A beszédfelismerő szoftvernek számos kihívást kell leküzdenie, hogy a használt szavakat a gyakorisági mintázatuk alapján azonosítsa: Meg kell értenie, ha nem érthetően beszélnek, értelmeznie kell az azonos hangzású, de különböző jelentésű szavakat, az eltérő hanglejtéseket vagy a dialektusokat. A szoftver az elhangzottakat összeveti a számtalan szót és gyakorisági mintát tartalmazó óriási adatbázisokkal, és kitalálja, hogy mit mondtak neki.

A következő lépésben a mondat jelentését kell meghatároznia. Ehhez a szoftver elküldi a szöveget egy nyelvinterfésznek, amely adott kulcsszavakat keres. A programozóknak ehhez előzetesen meg kell határozniuk az összes szükséges kifejezést és parancsot (intent-eket) valamint azok szinonimáit, továbbá az azok által kiváltott műveleteket. Így képes például az „adj” szót kérésnek értelmezni, hogy egy tárgyat egy bizonyos helyre kell szállítani, a „nekem” szót pedig személyként vagy a cselekvés céljának.

Mesterséges intelligenciával az optimális megoldáshoz

Ha az interfész felismerte a mondat jelentését, akkor egy úgynevezett kontextusobjektumot küld tovább, egy szoftverkódot, amely a készülék vezérléséhez szükséges. Annak érdekében, hogy a gép egyértelmű cselekvési utasításokat kapjon, egy újabb szoftver mesterséges intelligenciát alkalmaz. Ez kiértékeli a kontextusobjektum tartalmát, és ezzel párhuzamosan különböző érzékelőktől kap információkat a készülék helyzetéről és környezetéről. A szoftver különböző modulokat tartalmaz a különböző megoldásokhoz, amelyek adott műveletekhez vannak rendelve.

A program mindezen információkból egy parancsot hoz létre arra vonatkozóan, hogy például egy megfogó hogyan és merre mozogjon, majd elküldi azt a készülék vezérlőjének. Az érzékelőtechnika tehát felismeri, hogy hol van az asztalon a toll, és kiszámítja, milyen útvonalat kell megtennie a készüléknek, hogy felvegye és átadja azt egy személynek. A szoftver folyamatosan tanulja, hogy az egyes cselekvésekhez melyik az optimális megoldás és a következő alkalommal már ezt a tudást alkalmazza.

Ennek a sok bonyolult folyamatnak a másodperc töredéke alatt kell lefutni, mert az emberek azt várják, hogy a gép azonnal és mindenekelőtt helyesen reagáljon. Bár a beszédfelismerés a már több mint 30 éve zajló fejlesztéseknek köszönhetően viszonylag jól működik, a gépek hangvezérléséhez még rengeteg kutatás és fejlesztés szükséges. Talán egy nap majd ugyanolyan természetesen beszélgethetünk egy géppel, mint a szomszédunkkal.