„Siri, wie wird das Wetter heute?“ „Ok, Google, stell die Musik leiser!“ „Alexa, bestell mir nochmal die blauen Turnschuhe!“ Technik, die aufs Wort gehorcht, ist mit Sprachassistenten längst zum Alltag geworden. Damit die Steuerung über die Sprache reibungslos funktioniert, laufen im Hintergrund komplexe Softwareprozesse ab. Die richtige Interpretation von gesprochenen Befehlen benötigt viel Vorarbeit, eine hohe Rechnerleistung und nicht zuletzt künstliche Intelligenz.
Eine einfache Aufforderung, ein kurzer Satz – spielend leicht interpretiert das menschliche Gehirn, was gemeint ist, stellt den Zusammenhang her und veranlasst eine entsprechende Reaktion. Viel komplizierter gestaltet sich das für eine Maschine. Will man technische Geräte mit Sprache steuern, müssen viele einzelne Schritte erfolgen.
„Gib mir einen Stift!“ – ein ganz einfacher Befehl, der den Rechner im Hintergrund aber schwer beschäftigt. Zunächst wird der gesprochene Satz in Text umgewandelt. Die Spracherkennungs-Software muss anhand der Frequenzmuster erkennen, welche Worte enthalten sind, und dabei viele Herausforderungen meistern: Undeutliche Aussprache, gleichlautende Worte mit unterschiedlichen Bedeutungen, verschiedene Betonungen oder Dialekte. Durch den Abgleich mit umfangreichen Datenbanken, in denen unzählige Wortbeispiele und ihre Frequenzmuster hinterlegt sind, erschließt die Software, um welche Worte es sich handelt.
Im nächsten Schritt gilt es, die Bedeutung des Satzes zu erschließen. Dazu sendet die Software den Text an ein Sprachinterface, das ihn auf bestimmte Schlüsselworte überprüft. Im Vorfeld muss der Programmierer alle notwendigen Begriffe und Befehle – so genannte Intents – sowie auch deren Synonyme festlegen und definieren, welche Aktion jeweils dahinterstehen soll. Beispielsweise wird „gib“ als die Aufforderung erkannt, einen Gegenstand an eine bestimmte Stelle zu transportieren, das Wort „mir“ wird als eine Person bzw. als ein Ziel der Handlung verstanden.
Hat das Interface die Bedeutung des Satzes erkannt, gibt es ein sogenanntes Context-Objekt aus: Einen Software-Code, mit dem die Steuerung des Geräts arbeiten kann. Um der Maschine eine eindeutige Handlungsanweisung zu geben, kommt nun mit einer weiteren Software die „künstliche Intelligenz“ ins Spiel. Diese wertet den Inhalt des Context-Objekts aus und bekommt gleichzeitig von verschiedenen Sensoren Informationen über die Position des Geräts und seine Umgebung. In der Software sind Bausteine für unterschiedliche Lösungswege hinterlegt, die bestimmten Aktionen zugeordnet sind.
Aus allen diesen Informationen baut das Programm einen Befehl auf, wie und wohin sich zum Beispiel ein Greifarm bewegen soll und sendet ihn an die Gerätesteuerung. Die Sensorik erkennt also, wo auf dem Schreibtisch der Stift liegt und welchen Weg die Maschine nehmen muss, um ihn aufzunehmen und an eine Person zu übergeben. Dabei lernt die Software nach und nach, welcher Lösungsweg für jede Aktion der optimale ist und wendet diese Erkenntnisse bei der nächsten Aktion an.
Alle diese komplexen Abläufe müssen in Sekundenbruchteilen erfolgen, denn der Mensch erwartet von der Maschine eine prompte und vor allem richtige Reaktion. Während die Spracherkennung nach über 30 Jahren Anwendung bereits relativ gut funktioniert, steckt hinter der Sprachsteuerung von Maschinen noch viel Forschungs- und Entwicklungsarbeit – bis wir uns irgendwann so selbstverständlich mit einer Maschine unterhalten können wie mit unserem Nachbarn.