Eine einfache Aufforderung, ein kurzer Satz – spielend leicht interpretiert das menschliche Gehirn, was gemeint ist, stellt den Zusammenhang her und veranlasst eine entsprechende Reaktion. Viel komplizierter gestaltet sich das für eine Maschine. Will man technische Geräte mit Sprache steuern, müssen viele einzelne Schritte erfolgen.

Sprache erkennen und interpretieren

„Gib mir einen Stift!“ – ein ganz einfacher Befehl, der den Rechner im Hintergrund aber schwer beschäftigt. Zunächst wird der gesprochene Satz in Text umgewandelt. Die Spracherkennungs-Software muss anhand der Frequenzmuster erkennen, welche Worte enthalten sind, und dabei viele Herausforderungen meistern: Undeutliche Aussprache, gleichlautende Worte mit unterschiedlichen Bedeutungen, verschiedene Betonungen oder Dialekte. Durch den Abgleich mit umfangreichen Datenbanken, in denen unzählige Wortbeispiele und ihre Frequenzmuster hinterlegt sind, erschließt die Software, um welche Worte es sich handelt.

Im nächsten Schritt gilt es, die Bedeutung des Satzes zu erschließen. Dazu sendet die Software den Text an ein Sprachinterface, das ihn auf bestimmte Schlüsselworte überprüft. Im Vorfeld muss der Programmierer alle notwendigen Begriffe und Befehle – so genannte Intents – sowie auch deren Synonyme festlegen und definieren, welche Aktion jeweils dahinterstehen soll. Beispielsweise wird „gib“ als die Aufforderung erkannt, einen Gegenstand an eine bestimmte Stelle zu transportieren, das Wort „mir“ wird als eine Person bzw. als ein Ziel der Handlung verstanden.

Künstliche Intelligenz findet die optimale Lösung

Hat das Interface die Bedeutung des Satzes erkannt, gibt es ein sogenanntes Context-Objekt aus: Einen Software-Code, mit dem die Steuerung des Geräts arbeiten kann. Um der Maschine eine eindeutige Handlungsanweisung zu geben, kommt nun mit einer weiteren Software die „künstliche Intelligenz“ ins Spiel. Diese wertet den Inhalt des Context-Objekts aus und bekommt gleichzeitig von verschiedenen Sensoren Informationen über die Position des Geräts und seine Umgebung. In der Software sind Bausteine für unterschiedliche Lösungswege hinterlegt, die bestimmten Aktionen zugeordnet sind.

The program uses all this information to construct a command, for example how and where a gripper arm should move and sends it to the device controller. The sensor technology thus detects where the pen is on the desk and what path the machine must take to pick it up and hand it to a person. The software gradually learns which solution is the best for each action and applies this knowledge to the next action.

All these complex sequences must be made in fractions of a second, because the person expects a prompt and above all correct reaction from the machine. Although after 30 years of application, voice recognition works relatively well, there is still plenty of research and development going on behind the voice control of machines – until at some point we will be able to talk as naturally with a machine as with our neighbour.