"Siri, jaka będzie dziś pogoda?" "Ok, Google, ścisz muzykę!" "Alexa, zamów mi jeszcze raz te niebieskie tenisówki!" Technologia, która słucha każdego słowa użytkownika, już dawno stała się częścią codziennego życia dzięki asystentom głosowym. Aby sterowanie głosem działało sprawnie, w tle działają złożone procesy oprogramowania. Poprawna interpretacja wymawianych komend wymaga mnóstwa pracy wstępnej, dużej mocy obliczeniowej i wreszcie sztucznej inteligencji.
Prosta prośba, krótkie zdanie - ludzki mózg bardzo łatwo interpretuje, co ma na myśli, ustala kontekst i inicjuje odpowiednią reakcję. W przypadku maszyny jest to o wiele bardziej skomplikowane. Jeśli chcemy sterować urządzeniami technicznymi za pomocą mowy, konieczne jest wykonanie wielu indywidualnych czynności.
"Daj mi długopis!" - bardzo proste polecenie, ale takie, które sprawia, że komputer jest zajęty w tle. Najpierw zdanie mówione jest przekształcane na tekst. Oprogramowanie do rozpoznawania mowy musi pokonać wiele wyzwań, aby zidentyfikować używane słowa na podstawie ich wzorców częstotliwości: niejasna wymowa, podobnie brzmiące słowa o różnych znaczeniach oraz różne intonacje lub dialekty. Poprzez porównanie z obszernymi bazami danych, w których przechowywane są niezliczone przykłady słów i ich wzorce częstotliwości, oprogramowanie sprawdza, z jakimi słowami mamy do czynienia.
Kolejnym krokiem jest opracowanie znaczenia zdania. Aby to zrobić, oprogramowanie wysyła tekst do interfejsu językowego, który sprawdza go pod kątem określonych słów kluczowych. Wcześniej programista musi ustalić wszystkie niezbędne terminy i polecenia - zwane intencjami - oraz ich synonimy, a także określić, jaka akcja kryje się za każdym z nich. Na przykład, "daj" jest rozpoznawane jako prośba o przetransportowanie przedmiotu w określone miejsce, słowo "ja" jest rozumiane jako osoba lub cel działania.
Gdy interfejs zidentyfikuje znaczenie zdania, dostarcza obiekt kontekstu, czyli kod programowy, z którym może pracować system sterowania urządzeniem. Aby dać maszynie jasne instrukcje działania, do gry wchodzi "sztuczna inteligencja" z dodatkowym oprogramowaniem. Ocenia ona zawartość obiektu kontekstowego i jednocześnie otrzymuje informacje z różnych czujników na temat pozycji urządzenia i jego otoczenia. Oprogramowanie zawiera moduły dla różnych rozwiązań, które są przypisane do konkretnych działań.
Sterowanie głosem w BionicWorkplace, najnowszym projekcie opracowanym przez Bionic Learning Network
Program wykorzystuje wszystkie te informacje do skonstruowania polecenia, na przykład jak i gdzie ma się poruszać ramię chwytaka i wysyła je do sterownika urządzenia. Technologia czujników wykrywa więc, gdzie na biurku znajduje się długopis i jaką drogę musi pokonać maszyna, aby go podnieść i przekazać osobie. Oprogramowanie stopniowo uczy się, które rozwiązanie jest najlepsze dla każdej akcji i stosuje tę wiedzę do następnej akcji.
Wszystkie te skomplikowane sekwencje muszą być wykonane w ułamkach sekundy, ponieważ człowiek oczekuje od maszyny szybkiej i przede wszystkim prawidłowej reakcji. Choć po ponad 30 latach stosowania rozpoznawanie głosu działa już stosunkowo dobrze, to za sterowaniem głosowym maszyn wciąż stoi wiele badań i prac rozwojowych - aż pewnego dnia będziemy mogli rozmawiać z maszyną tak naturalnie, jak z naszym sąsiadem.
Obejrzyj ten film, aby dowiedzieć się, jak sterowanie głosem jest wykorzystywane w BionicWorkplace (od 00:50 min.).