GPT-3 gibi geniş dil modelleri, sohbet yazılımlarına sorduğumuz zor sorulara insan gibi yanıt verme kabiliyeti sağlıyor. Peki gerçekte ne kadar zekiler? Los Angeles – California Üniversitesinde (UCLA) çalışan psikologların bu hafta Nature Human Behavior bülteninde yayımlanan yeni araştırması, dil modeli GPT-3’ün ortalama bir lise öğrencisinden daha iyi muhakeme becerileri bulunduğunu gösteriyor.
Araştırma sonucunda GPT-3’ün, SAT (ABD’nin üniversite sınavı) gibi standartlaştırılmış sınavlarda görebileceğiniz soruları UCLA’da okuyan 40 kişilik öğrenci grubundan daha iyi çözdüğü keşfedilmiş. Bu tür sınavlarda yeni bir problemin çözülmesi için benzer problemlere ait çözümlerinin kullanılması gerekiyor.
Bilim insanları basın bülteninde şöyle aktarıyor: “Sorularda aynı tip ilişkiyi paylaşan kelime çiftlerinin seçilmesi istenmişti. (Örneğin ‘Sevgi’nin ‘Nefret’ ile ilişkisine karşılık ‘Zengin’ hangi kelimeyle ilişkilidir?. Cevap: ‘Fakir’).” Bir başka benzerlik sorusunda ise kısa bir hikayeden türetilen cevaplar kullanılırken, bu hikaye içerisindeki bilgiyle alakalı sorular sorulmuş. Basın bülteninde, “Analojik/çıkarımsal muhakeme şeklinde bilinen bu sürecin uzun zamandır insanlara özgü benzersiz bir kabiliyet olduğu düşünülmüştü” yazıyor.
Aslında GPT-3, lise öğrencilerinin ortalama SAT puanından daha iyi puanlara ulaşmış. GPT-3, Raven’in İlerlemeli Matrisleri şeklinde adlandırılan bir dizi problemle test edilen çıkarımsal muhakeme söz konusu olduğunda da insan denekler kadar iyi performans göstermiş.
GPT-3’ün SAT’te çok başarılı olması şaşırtıcı değil. Önceki çalışmalarda birtakım standartlaştırılmış testleri çözmesi istenerek mantıksal kabiliyetleri test edilen model, bu sınavların hepsinden üstün başarıyla geçmiş. Dil modelinin son sürümü olan ve görüntü işleme yeteneği eklenen GPT-4 ise çok daha iyi. Google’da çalışan araştırmacılar geçtiğimiz yıl, karmaşık bir problemi ufak parçalara ayrıştıran düşünce silsileli komutlarla bu gibi dil modellerinin mantıksal muhakeme becerisini geliştirebileceklerini keşfetmişler.
Yapay zeka günümüzde bilgisayar bilimcileri her ne kadar Turing testi gibi makine zekasının basit ölçütlerini yeniden düşünmeye zorlasa da, bu modeller şimdilik mükemmellikten uzak.
Örneğin Riverside – California Üniversitesinde çalışan bir araştırma takımının bu hafta yayımladığı bir çalışmada, Google ve OpenAI’nin geliştirdiği dil modellerinin sağlık konusunda hastalardan gelen sorulara kusurlu bilgiler sunduğu keşfedilmiş. Stanford ve Berkeley Üniversitelerinde çalışan bilim insanları ise bu yılın başlarında yürüttükleri çalışmalarda, kod üretmesi veya matematik problemlerini çözmesi istendiği zaman ChatGPT’nin henüz bilinmeyen sebeplerle daha özensiz cevaplar verdiğini keşfetmişler. ChatGPT sıradan halk arasında popüler ve eğlenceli bir araç olsa da, gündelik kullanım için çok pratik değil.
Ayrıca görsel bulmacalarda ve gerçek dünyanın fiziği ile alanlarını anlamada halen berbat bir performans sergiliyor. Google, bu doğrultuda sorunu çözmek için multimodal dil modelleriyle robotları birleştirmeye çalışıyor.
Bu modellerin bizim gibi düşünüp düşünmediğini; bilişsel süreçlerinin bizimkine benzeyip benzemediğini söylemek zor. Bununla beraber test çözmede iyi olan bir yapay zeka, genelde bir insan gibi zeki değil. Sınırlarının nerede olduğunu ve potansiyellerinin neler olabileceğini söylemek zor. Bunun için içlerinin açılması ve yazılım ile eğitim verilerinin açığa çıkarılması gerekiyor. OpenAI’nin geniş dil modeli araştırmasını çok sıkı koruması ise uzmanların yönelttiği temel eleştirilerden biri.
Yazar: Charlotte Hu/Popular Science. Çeviren: Ozan Zaloğlu.