“Siri, bugün hava nasıl?” “Google, müziği kapat!” “Alexa, tekrar mavi spor ayakkabı sipariş et!” Her kelimeye uyan teknoloji, sesli asistanlarla birlikte günlük hayatın bir parçası olmaya çoktan başladı. Ses kontrolünün sorunsuz çalışması için karmaşık yazılım işlemleri arka planda çalışır. Sözlü komutların doğru yorumlanması, çok fazla hazırlık çalışması, yüksek bilgi işlem gücü ve son fakat en önemlisi, yapay zeka gerektirir.
Basit bir istek, kısa bir cümle - insan beyni ne kastedildiğini kolayca yorumlar, bağlamı oluşturur ve buna karşılık gelen bir tepkiyi tetikler. Bir makine için çok daha karmaşık. Teknik cihazları sesle kontrol etmek istiyorsanız, birçok bireysel adımın atılması gerekiyor.
"Bana bir kalem ver!" - bilgisayarı arka planda meşgul eden çok basit bir komut. İlk olarak, konuşulan cümle metne dönüştürülür. Konuşma tanıma yazılımı, hangi sözcüklerin içerdiğini frekans kalıplarına göre tanımalı ve böylece birçok zorluğun üstesinden gelmelidir: belirsiz telaffuz, farklı anlamlara sahip özdeş sözcükler, farklı aksanlar veya lehçeler. Yazılım, sayısız kelime örneklerinin ve sıklık kalıplarının depolandığı kapsamlı veri tabanlarıyla karşılaştırarak, hangi kelimelerin dahil olduğunu ortaya çıkarır.
Bir sonraki adım, cümlenin anlamını anlamaktır. Bunu yapmak için yazılım, metni belirli anahtar sözcükler için kontrol eden bir ses arabirimine gönderir. Programcı, önceden tüm gerekli terimleri ve komutları - sözde niyetler - ve bunların eşanlamlılarını tanımlamalı ve arkalarında hangi eylemin olacağını tanımlamalıdır. Örneğin, “ver”, bir nesneyi belirli bir noktaya taşıma isteği olarak kabul edilir, “ben” kelimesi bir kişi veya eylemin amacı olarak anlaşılır.
Arayüz cümlenin anlamını algıladıktan sonra, bağlam nesnesi olarak adlandırılan bir çıktı verir: cihazın kontrolünün çalışabileceği bir yazılım kodu. Makineye net talimatlar verebilmek için artık ek yazılımlarla "yapay zeka" devreye giriyor. Bu, bağlam nesnesinin içeriğini değerlendirir ve aynı anda çeşitli sensörlerden cihazın konumu ve çevresi hakkında bilgi alır. Yazılım, belirli eylemlere atanan farklı çözümler için modüller içerir.
Tüm bu bilgilerden program, örneğin bir kıskaç kolunun nasıl ve nerede hareket etmesi gerektiğine dair bir komut oluşturur ve bunu cihaz kontrolüne gönderir. Sensör sistemi, kalemin masanın neresinde olduğunu ve makinenin kalemi alıp bir kişiye teslim etmek için hangi yolu izlemesi gerektiğini algılar. Yazılım kademeli olarak her bir eylem için hangi çözümün en iyi olduğunu öğrenir ve bu bilgiyi bir sonraki eyleme uygular.
Tüm bu karmaşık süreçler saniyenin çok küçük bir bölümünde gerçekleşmelidir, çünkü insanlar makineden hızlı ve her şeyden önce doğru bir tepki beklerler. Konuşma tanıma, 30 yılı aşkın bir kullanımdan sonra nispeten iyi çalışıyor olsa da, makinelerin konuşma kontrolünün arkasında hala çok sayıda araştırma ve geliştirme çalışması var - bir noktada bir makineyle komşularımızla yaptığımız kadar doğal bir şekilde konuşabilene kadar.