İnsana Denk Bir Konuşma Tanıma Sistemi Geliştirildi

0
Microsoft, sesi yazıya dönüştürebilen, en az profesyonel çevriyazıcılar kadar iyi bir yazılım geliştirdi.
Microsoft, sesi yazıya dönüştürebilen, en az profesyonel çevriyazıcılar kadar iyi bir yazılım geliştirdi.
Microsoft, sesi yazıya dönüştürebilen, en az profesyonel çevriyazıcılar kadar iyi bir yazılım geliştirdi.

Konuşma tanıma yazılımı mükemmel değil, ama son gelişmelerle neredeyse gerçek bir insan gibi çalışabiliyor. Microsoft Yapay Zeka ve Araştırma Ekibi konuşmayı yazıya çevirme sürecindeki en büyük kilometre taşını geride bıraktı: Sistem, %5,9 gibi tarihteki en küçük kelime hatası oranıyla, neredeyse profesyonel bir çevriyazıcının doğruluk seviyesine ulaştığını kanıtladı. Ayrıca, kelimeleri iki insanın konuşma sırasında birbirlerini anladıkları kadar açık ve doğru bir şekilde fark edebiliyor.

Microsoft’un bloğuna göre, bu takım son birkaç aya kadar Microsoft’un açık kaynak Computational Network Toolkit’i temel alıp, bu projenin oldukça fazla üstünde durarak, yıllarca insan denkliğine ulaşma amaçları için çalıştı. Şirketin bilim insanı Xuedong Huang bu büyük buluşa uyandığında; yani takım, insan denkliğindeki bu yazılımı geliştirdiğinde saatler 3.30’u gösteriyordu.

Yine de bu sadece gecelerce uğraş veren çalışkan öğrenci ve araştırmacılar için bir dönüm noktası değil. Huang’a göre, yakın gelecekte bir Al asistanıyla konuşulduğunda büyük ihtimalle fark edilecek ki bu konuşma tanıma yazılımı yaygın bir kullanıcı ara yüzü olacak. “Tanıma doğruluğu her başarılı kullanıcı etkileşimi için kurumsal niteliktedir.” Bu, bir kavgada kelimeyi üç defa yanlış anladığı için Al asistanına telefonda kızmakla, tanıma sisteminin gerçek bir insanla konuşuyormuşçasına ilk defada anlaması arasındaki farktır.

Yazılım oldukça doğru sonuçlar vermekte fakat hala çoğu insan çevriyazıcılarda olduğu gibi kusursuz değil. İnsan ve sistemin çeliştiği en büyük problem incelikli sinyaller. Bu da araştırmacıların raporlarında şöyle ifade ediliyor:

“Biz esasen bu yapay yazılım hatalarını insanlardakiyle aynı buluyoruz fakat önemli bir istisna dışında var: ‘backchannel’ olarak ifade edilen sözlü ya da fiziksel onaylamalar ki bu olayda sesliler önemli, ve duraksamalar. Bu ayrım şöyle ki, “uh-huh”( Türkçe’de hı hı) gibi backchannel sözcükleri konuşmacıya karşısındakinin anladığını belirten cevaplardır, ama konuşma sırasındaki duraksamalarda “uh” (Türkçe’de konuşurken ıı’lamak) gibi konuşmacının konuşmasına devam edeceğinin göstergesi olan sinyaller, o an konuşan kişinin daha söyleyecek şeyleri olduğunu ve kendi konuşmasının devam etmek istediğini belirtir. Konuşma sırasından sorumlu aygıtlarda, bu iki kelime sınıfı oldukça zıt anlamlar içermektedir.

Çoğu insanın bu probleme sahip olduğu söylenebilir, ama robotlarımız daha iyi aktif dinleyiciler olacak. Sistem ayrıca büyük bir distopyan bilim-kurgu parçası olan “ben” sözcüğünde takılır, hatta bazen bu sözcüğü tamamen yok sayar. Hangi sistem “ben” diye düşünür ki?


Çeviren : Cansu Yokuş

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz