Yapay Zeka Felçli Bir Kadının Yeniden Kendi Sesiyle Konuşmasını Sağladı

0
Video görüntüsü: San Francisco - California Üniversitesi

San Francisco – California Üniversitesi (UCSF) ve Berkeley – California Üniversitesinde (BCU) çalışan araştırmacılar, beyin kökündeki inme sebebiyle felç geçiren bir kadının dijital bir avatar yoluyla konuşmasını sağlayan yeni bir teknoloji geliştirmişler.

Konuşma veya yüz ifadelerinin beyin sinyallerinden sentezlendiği ilk çalışma bu olmuş. Bilim insanlarının geliştirdiği bu beyin-bilgisayar arayüzü (BCI) sistemi, ayrıca söz konusu sinyalleri dakikada yaklaşık 80 kelimelik hızla çözüp metne dönüştürüyor ve günümüzde kullanılan teknolojilere kıyasla büyük bir ilerleme sağlıyor.

UCSF sinir cerrahisi bölümü başkanı psikiyatri profesörü Dr. Edward Chang, BCI şeklinde bilinen teknoloji üzerinde on yıldan uzun süredir çalışmış. Chang geçtiğimiz ay Nature bülteninde yayımlanan devrim niteliğindeki son araştırmasının, yakın gelecekte beyin sinyallerinden konuşmayı mümkün kılan FDA onaylı bir sisteme yol açmasını umuyor: “Hedefimiz, diğer insanlarla konuşmanın en doğal yolu olan bu iletişim şeklini tamamen geri kazandırmak. Yeni gelişmeler, bunu hastalar için gerçek bir çözüm haline getirmeye çok daha fazla yaklaşmamızı sağlıyor.”

Chang’in araştırma takımı, kendisi de yıllar önce beyin kökünde inme geçiren bir adamda da beyin sinyallerinin çözülmesinin mümkün olduğunu göstermiş. Yeni çalışma ise daha tutkulu bir şeyi gösteriyor: Beyin sinyallerinin, konuşma sırasında kişinin yüzünü canlandıran hareketlerle birlikte konuşmanın zenginliğini yansıtacak biçimde çözülmesini.

Chang, araştırma takımının konuşma için büyük önem taşıdığını keşfettiği alanlarda kadının beyin yüzeyine kağıt inceliğinde ve 253 elektrotluk bir dikdörtgen yerleştirmiş. Bu elektrotlar, felç olmasaydı kadının diline, çenesine, gırtlağına ve ayrıca yüzüne gidecek olan beyin sinyallerini yakalamış. Kadının kafasındaki bir girişe takılan kabloyla birlikte bu elektrotlar bilgisayarlara bağlanmış.

Katılımcı ve araştırma takımı haftalarca beraber çalışarak, sistemin yapay zeka algoritmalarını kadının beyninin konuşma için gönderdiği özgün sinyalleri tanıması amacıyla eğitmiş. Bu işlemlerde 1.024 kelimeden oluşan ve konuşmayla ilgili olan bir kelime haznesindeki sözcük grupları, bilgisayar söz konusu seslerle ilişkili beyindeki faaliyet kalıplarını tanıyana dek defalarca tekrarlanmış.

Araştırmacılar yapay zekayı tam kelimeleri tanıması için eğitmek yerine, fonemlerdeki kelimeleri çözen bir sistem oluşturmuşlar. Bunlar; söylenen sözcükleri, yazılan sözcükleri oluşturan harfler ile aynı şekilde oluşturan, konuşmanın alt birimleri. Örneğin “Hello” kelimesi “HH”, “AH”, “L” ve “OW” olmak üzere dört fenom içeriyor.

Bilgisayar bu yaklaşımı kullanarak, İngilizce’deki herhangi bir kelimeyi çözmek için sadece 39 fenom öğrenmeye ihtiyaç duymuş. Bu sayede hem sistemin doğruluk oranı gelişmiş hem de sistem üç kat hızlanmış.

UCB ve UCSF ortak Biyomühendislik Programı’nda yüksek lisans yapan ve metin çözücüyü birlikte geliştiren Sean Metzger ile Alex Silva, “Doğruluk, hız ve kelime dağarcığı çok önemli” diyor. “Bu sayede bir kullanıcıya neredeyse bizim kadar hızlı konuşabilme potansiyeli veriliyor. Çok daha doğal ve normal konuşmalar sağlanabiliyor.”

Araştırma takımı sesi oluşturmak için ise kadının evlendiği zaman yaptığı bir konuşmanın kaydının kullanılmasıyla kişiselleştirilip, felç geçirmeden önceki sesine benzetilen bir konuşma sentezleme algoritması tasarlamış.

Araştırma, avatarı da yapay zeka destekli yüz canlandırma şirketi Speech Graphics’in geliştirdiği ve yüzün kas hareketlerini canlandıran bir yazılımın yardımıyla canlandırmış. Araştırmacılar, kadın konuşmaya çalıştığı zaman şirketin geliştirdiği yazılımın kadının beyninden gönderilen sinyallerle kaynaşmasına olanak sunan ve bunları avatarın yüz hareketlerine dönüştüren, çenenin açılıp kapanmasını, dudakların dışa çıkıp büzülmesini, dilin aşağı yukarı doğru hareket etmesini ve mutluluk, üzüntü ve şaşırma gibi yüz hareketlerinin yapılmasını sağlayan özel makine öğrenim süreçleri oluşturmuş.

UCB’de görev yapan elektrik mühendisliği ve bilgisayar bilimleri profesörü Gopala Anumanchipalli ve Chang ile çalışan yüksek lisans öğrencisi Kaylo Littlejohn, “Beyin ve ses yolu arasındaki felcin ayırdığı bağlantıları telafi ediyoruz” diyor. “Denek bu sistemi ilk defa kullanıp konuştuğunda ve avatarın suratını hareket ettirdiğinde, bunun gerçek etkiler ortaya çıkaran bir şey olacağını biliyordum.”

Araştırma takımının bir sonraki adımı, kullanıcının BCI’ye fiziksel olarak bağlanmasını gerektirmeyecek kablosuz bir versiyon geliştirmek olacak.

Sinir cerrahi profesörü olan makale eş baş yazarı David Moses, “İnsanlara kendi bilgisayarlarını ve telefonları bu teknolojiyle özgürce kontrol etme kabiliyeti sunmak, bu kişilerin bağımsızlığı ve sosyal etkileşimleri üzerinde köklü etkiler meydana getirecektir” diyor.

 

Yazarlar: Robin Marks ve Laura Kurtzman/San Francisco – California Üniversitesi. Çeviren: Ozan Zaloğlu.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz