ChatGPT, Turing Testi’ni Geçti. Peki Şimdi Ne Olacak?

0
Yapay zeka gitgide daha iyi hale geldikçe, insanlar şaşırtıcı derecede insan gibi görünen (ve davranan) makinelerle karşılaşıyor. Görüntü: DepositPhotos

Yapay zeka insanların %73’ünü kandırarak kendisinin insan olduğunu düşündürttü ve makine zekasıyla ilgili yeni soru işaretleri doğurdu.

Görünüşe göre her gün, ChatGPT ve Google’ın Gemini’ı gibi geniş dil modellerinin (LLM) çabuk gelişen kabiliyetleriyle ilgili yeni bir manşet atılıyor; bu manşetler, kişinin bakış açısına göre ya heyecan verici oluyor ya da gitgide endişe verici hale geliyor.

Bu yılın başlarında özellikle çarpıcı bir olay meydana geldi: Bir makalede, bir LLM’nin Turing Testi’ni nasıl geçtiği anlatıldı. 1950’li yıllarda öncü bilgisayar bilimci Alan Turing’in tasarladığı bu deneyde, makine zekasının insan zekasından ayırt edilip edilemeyeceği belirlenmeye çalışılıyor. Çalışmada kullanılan LLM ChatGPT 4,5’muş. Makalede, modelin insanları kendisinin insan olduğuna inandırmada çarpıcı bir başarı sergilediği bulunmuş. Katılımcılara karşılarındakinin sohbet robotu mu yoksa gerçek bir insan mı olduğunun sorulduğu bir deneyde, dört katılımcıdan neredeyse üçü gerçek insan olduğunu söylemiş.

Bu miktar kulağa… önemli geliyor. Peki tam olarak nasıl? Tüm bunlar ne anlama geliyor?

Turing Testi nedir ve ne değildir?

Bu soruyu cevaplamak için önce Turing Testi’nin ne olduğuna ve bir LLM’nin testi geçmesinin ya da testte başarısız olmasının ne anlama geldiğine bakmamız gerekiyor.

San Diego – California Üniversitesinde çalışan ve yeni makalenin eş yazarlarından biri olan doktora sonrası öğrencisi Cameran Jones, Turing’in bu test fikrini 1950 tarihli ufuk açan “Hesaplayan Makine ve Zeka” makalesinde ortaya attığını söylüyor. Makalede Turing, dönemin insanlarının zihinlerini işgal eden o büyük ve köklü “Makineler düşünebilir mi?” sorusunu ele almaya koyulmuştu.

Turing makalesinde bu sorunun muğlak ve gayri ciddi olduğunu hızla reddediyor çünkü bu bağlamda ne bir “makinenin” ne de “düşünmenin” ne olduğunun belli olmadığının söylüyor. Daha nüanslı ve kolayca ele alınabilir bir cevabın gerekli olduğunu öne sürüyor ve “Bir makine, eylemlerinin bir insanınkilerden ayırt edilemeyeceği biçimde davranabilir mi” sorusunu sunuyor. Bu soruyu cevaplamak için ise “Taklit Oyunu” şeklinde adlandırdığı şeyi öneriyor. O zamandan beri “Turing Testi” olarak bahsedilegelen egzersiz de işte bu.

Fikirleri modern bilişimi şekillendiren öncü İngiliz matematikçi ve bilgisayar bilimci Alan Turing. Görüntü: Kamu malı

Testte bir kişi (“sorgulayıcı”), “şahit” adı verilen iki gizli muhatap ile eş zamanlı iletişim kuruyor. Bütün iletişim yazılı gerçekleştiriliyor. İşin püf noktası, bu iki şahitten biri gerçek bir insan iken diğerinin bir makine olması. Jones’ın açıklamasına göre oyunun amacı, “sorgulayıcının bu iki şahitten hangisinin gerçek insan olduğunu bulması.”

Jones ve araştırma takımı bu deneyi dört LLM ile yürütmüş. ChatGPT 4,5 açık ara en başarılı model olmuş: Katılımcıların %73’ü onu gerçek insan biçiminde tanımlamış. LLaMa-3.1-405B gibi zor bir ismi olan diğer model ise %56 oranında insan olarak tanımlanmış. (Diğer iki model [ELIZA ve GPT-4o], sırasıyla %23 ve %21 başarı oranı sergilemiş. Bunlardan tekrar bahsedilmeyecek.)

ChatGPT’nin Turing Testi’ni geçmesi ne anlama geliyor?

ChatGPT ve LLaMa’nın sonuçları yeterince çarpıcı ama asıl ilginç soru, modellerin başarısının ne gibi bir önem taşıdığı.

Testin makine zekasını tespit etmek için tasarlanmadığını baştan belirtmekte fayda var. Turing “Makineler düşünebilir mi?” sorusunu reddederken, cevabın “evet” olması halinde düşünme işini tam olarak kimin yaptığına yönelik çetrefilli sorudan da titizlikle kaçınıyor. Rene Descartes’ın aslında düşüncenin varlığı için bilincin gerektiğini gösteren meşhur “Düşünüyorum, o halde varım” sözünü hatırlayın.

Fakat Turing makalesinde Taklit Oyunu’ndaki başarının, gerçek makine zekasının iş başında olma ihtimalini reddedemeyeceğimiz anlamına geldiğini öne sürüyor. Jones’ın açıkladığı üzere Turing, “Aslında bu oyunda şahitler arasındaki farkı güvenilir bir şekilde fark edemeyeceğimiz kadar iyi iş çıkaran bir makine yaparsak, o zaman aslında bu makinenin zeki olduğunu söylemek zorunda kalacağımızı” ifade ediyor.

Modern okuyucular böyle bir ifadeden çekinebilir, o yüzden Turing’in şu muhakemesine bakmakta yarar var:

  1. Diğer insanların zeki olduğunu bilmiyoruz. Zihinlerine giremez ya da onların gözünden göremeyiz.
  2. Yine de onları zeki olarak kabul ederiz.
  3. Bu yargıya nasıl varıyoruz? Turing, diğer insanların davranışlarına göre böyle yaptığımızı ileri sürüyor.
  4. Eğer zekayı davranışa dayalı olarak atfediyorsak ve bir makinenin davranışı ile bir insanın davranışı arasında ayrım yapamadığımız bir durumla karşılaşıyorsak, o makinenin davranışının da zekaya işaret ettiği sonucuna varmaya hazır olmalıyız.

Bu durum yine okuyuculara doğru gelmeyebilir. Aslında Turing’in önermesindeki kilit soru, zekayı sadece davranış temelinde atfediyor olmamız. Karşı argümanları ilerleyen satırlarda ele alacağız ama önce hangi tip davranışın zekayı gösterir gibi hissettirdiğini düşünmekte fayda var.

Turing makineleri test etmek için neden dili seçti

Turing’in “Taklit Oyunu”nun yürütülmesinde dili temel olarak seçmesi tesadüf değil. Sonuçta bir makinen bir insanı asla taklit edemeyeceği ve benzer şekilde, insanların da bir makineyi taklit edemeyeceği bir sürü durum var. Fakat yazılı dil sadece bir sayfadaki harf dizisi. Bir insan ya da makine tarafından oluşturulup oluşturulmadığı belli olmuyor.

Yine de dilin varlığı, birtakım varsayımları beraberinde getiriyor. Atalarımız cümleleri ilk defa bir araya getirmeye başladığından beri dil (en azından bildiğimiz kadarıyla), insanlığın özel bir alanı olmuştu (fakat bazı maymunlar bize yaklaşıyor).

Sergilediğimiz zeka tipinde de durum böyleydi; diğer hayvanlar da zeki ama hiçbiri bizim gibi düşünmüyor ya da insanların sergilediği kadar öz farkındalık taşıyor gibi görünmüyor. Bu temelde, dil ve zekayı birbirine bağlamamak neredeyse imkansız. Karşılığında ise sizinle konuşuyor görünen herhangi bir şeye kendiliğimizden bir miktar zeka atfetmemek zorlaşıyor.

Uzun soluklu Today in Tabs haber bülteninde yazan Rusty Foster, geçenlerdeki bir yazısında bu noktaya etkili biçimde temas ediyor. Foster, dili zeka ile birleştirme eğilimi taşıdığımızı çünkü şimdiye kadar dilin varlığının hep zekanın varlığını gösterdiğini söylüyor. “Esas sorun şu: Üretken dil yazılımı, uzun ve bağlam tabanlı dil metinleri oluşturmada çok iyi ve insanlık daha önce arkasında bir bilinç olmayan tutarlı dil ile hiç karşılaşmamıştı” diye yazıyor Foster. “Gündelik yaşamda hiç ‘dil’ ve ‘düşünce’ arasında ayrım yapmamız gerekmemişti çünkü dil sadece düşünceyle üretilebiliyordu.”

Foster, “ufak tefek” örneklerin istisna olduğunu fakat bunların bile bize şaşırtıcı derecede ikna edici geldiğini belirtiyor. Örneğin bir papağanı düşünün. Bir kuşun birdenbire bizim dilimizi konuştuğunu duymak muhakkak şaşırtıcı; ama ilginçtir, karşılık vermemek de neredeyse imkansız. (Oldukça Avustralyalı bir papağanla yine oldukça Avustralyalı olan bir kadının, ailenin köpeğinin entelektüel erdemleriyle ilgili tartıştığı bir video var. Kutsal değerlere saygısızlığa toleranslı seyirciler bu örnekten keyif alabilir.) Papağanların gerçekte ne “söylediklerini” bilmediklerini bilsek de; dilin varlığı yanıt olarak dili gerektiriyor. Peki LLM’lerde durum nasıl? Bunlar aslında enerjiye aç papağanlar mı?

Jones, Turing Testi’nin “eleştirilebileceği önemli noktalardan birinin de bu olduğunu” söylüyor. “Zekanın zeki davranış sergilemek olması, zekanın ne olduğuna dair süper davranışçı bir bakış açısı. Bu yüzden başka koşulların olması gerekebilir: Bir makinenin davranışı doğru şekilde gerçekleştirmesini ya da dünya ile doğru tip etkileşim geçmişi olmasını isteyebilirsiniz.”

Bir papağan insan dilini şaşırtıcı bir anlaşılırlıkla taklit edebilir ancak bu durum, papağanın söylediği şeyi anladığı anlamına gelmez. Görüntü: DepositPhotos

Çin Odası düşünce deneyi

Turing Testi’nin zekanın görünümü ile gerçek zekanın varlığının ayırt edilemezliğine yönelik varsayımlarına meydan okuyan düşünce deneyleri de var. Jones, 1980’de yayımlanan bir makalede sunulan ve belki de aralarında en bilineni olan John Searle’in Çin Odası düşünce deneyinden bahsediyor. Makalede Searle kendini, birinin kapı altından kağıt parçaları verdiği bir odada hayal ediyor. Bu kağıt parçalarında Çince karakterler bulunuyor. Searle Çince konuşmuyor ama ona Çince karakterleri nasıl çizeceğine yönelik detaylı talimatların ve kapı altından aldığı bu karakterlere cevaben hangi karakterlerin çizilebileceğine dönük bir dizi talimatın bulunduğu bir kitap verilmiş.

Esasında Searle, dışarıdaki kişiye mükemmel şekilde Çince konuşuyor gibi görünebilir ama gerçekte sadece ona hangi karakterleri çizeceğini ve nasıl çizeceğini söyleyen talimatları takip ediyor (bir program). Searle’in makalesinde açıkladığı üzere “Bu örnekte Çince hikayelerdeki tek kelimeyi bile anlamıyor oluşum oldukça açık. Elimde ana dili Çince olan kişininkilerden ayırt edilemeyen girdiler ile çıktılar var ve istediğiniz herhangi bir resmî programım olabilir ama yine de hiçbir şey anlamam.”

Bu argüman, Turing Testi’ndeki önermenin açık bir reddi. Searle bu makaleyle birlikte anlama ve anlıyor gibi görünme ile düşünme ve düşünüyor gibi görünme arasında önemli bir ayrım olduğunu öne sürüyor.

ChatGPT’nin insanları kandırmak üzere ayarlanması

Makale ayrıca Turing Testi’nin taşıdığı bir diğer olası sorunu gösteriyor: Çin Odası belli ki kapının diğer tarafındaki kişiyi kandırma amacını ifade etmek üzere tasarlanmış; ya da başka bir deyişle, Turing Testi’ni geçmesi için özel olarak tasarlanan bir programı. Bu doğrultuda, Jones’ın deneyinde testi geçen LLM’lerin ikna edici olması için bir derece ayarlanmalarının gerektiğini belirtmekte fayda var. Jones, ekibinin sohbet botu için büyük miktarda istem test ettiğini ve en büyük zorluklardan birinin de “modele ChatGPT’nin yaptığı şeyleri yaptırmamak olduğunu” söylüyor.

Jones ve araştırma takımının ChatGPT’ye ChatGPT gibi davranmaması için yaptırdığı bazı şeyler etkileyici elbet ve bunlar yine dilin nüansları etrafında dönüyor. “Her zaman tam cümlelerle konuşmamasını istiyorsunuz” diyor Jones. “İnsanlar mesaj yazarken gündelik bir şekilde konuşuyor; cümle parçaları gibi. Bu türden bir şey kullanmanız gerekiyor.”

Ek olarak araştırma takımı, deneyi yürütürken insana daha çok benzemesi için ChatGPT’ye yazım hataları yaptırmış. Yazım hatalarını “doğru yaptırmak aslında oldukça zor. Bir LLM’den yazım hatası yapması için çok uğraşmasını isterseniz, bunu her kelimede yapıyorlar ve hatalar hiç ikna edici görünmüyor. Yanlış tuşa basılarak yazılan kelimenin neye benzediğine dönük güzel bir modelleri olduğunu düşünmüyorum.”

ChatGPT neden diğer LLM’lerden daha iyi

LLM’ler araştırma yapmanın zor olduğu konular. Tabiatları gereği iç işleyişleri gizemli. Yapılarının üzerinde çalışma yürütülebilen tarafları bile gizlilik anlaşmaları ve çok katmanlı şirket gizliliğinin ardına saklanmış. Yine de Jones deneyin, insanları inandırıcı şekilde taklit etmede hangi tip LLM’nin en donanımlı olduğuyla ilgili bazı şeyleri açığa çıkardığını söylüyor: “ChatGPT 4,5’un en büyük modellerden biri olduğu söyleniyordu ve bence büyük bir model olması çok faydalı.”

Bu bağlamda “büyük” ne anlama geliyor? Büyük bir kod tabanı mı? Büyük bir veri seti mi? Hayır diyor Jones. Büyük bir modelin, model eğitim verilerini içine çekerken değerleri ayarlanabilen görece büyük miktarda iç değişkene sahip olduğunu açıklıyor. “Daha ufak damıtık modellerin, matematikte ve hatta oldukça basit mantıkta çok iyi taklit yapabildiğini görebiliyoruz. Fakat bence sosyal ve kişilerarası davranışsal yetenekleri genelde iyi olanlar çok büyük modeller.”

Turing ChatGPT’yi tahmin etmiş miydi?

Peki Turing hiç kendi tasarladığı bu testi gerçekten uygulanabilecek bir şey olarak düşünmüş müydü? Yoksa daha çok bir düşünce deneyi miydi? Jones, bu sorunun yanıtının Turing akademisyenleri arasında tartışma konusu olmaya devam ettiğini söylüyor. Jones sadece makalenin kendisine dayanarak hareket ettiğini söylüyor. “Bence makaleyi, insanların bu deneyi gelecekte bir noktada yürütebileceği önermesi şeklinde okuyabilirsiniz.”

Bununla birlikte Jones, “Turing’in bir metodoloji ortaya sermediği belli” diyor. “Yani bence bu deneyin onlarca yıl yürütülmeye değer olacağını düşünmüyor. Dolayısıyla ne kadar uzun sürmesi gerektiğini veya ne bileyim, ortada birtakım kurallar olup olmayacağını ve nelerden bahsedebileceklerini söylemiyor size.”

Turing bu testin geçilebilir olabileceğini öngördüyse, böyle bir şeyin 1950’lerde olmayacağını kesinlikle biliyordu. Yine de makalesi, günün birinde başarılı olacak makineler yapabileceğimiz ihtimalini en azından hayal ettiğini belli ediyor: “Bütün dijital bilgisayarların bu işi becerip becermeyeceğini veya bugünkü bilgisayarların iyi iş çıkarıp çıkarmayacağını değil, iyi iş çıkaracak bilgisayarların hayal edilip edilemeyeceğini soruyoruz” diye yazıyor.

Turing sık sık (haklı olarak) öngörülü biçiminde tarif edilmişti fakat 1950 tarihli o makalede şaşırtıcı bir ileri görüşlülük örneği sergileyen bir paragraf vardı. “Bence yaklaşık 50 yıl içerisinde bu taklit oyununu o kadar iyi oynayacak bilgisayarlar programlamak mümkün olacak ki; ortalama bir sorgulayıcının beş dakika sorgulamadan sonra doğru tespit yapma ihtimali yüzde 70’i aşmayacak.”

50 yıl değil 75 yıl sürdü ama o noktaya geldik: Gerçekten de insanları %70 oranında kandıran bir bilgisayarla (veya en azından bilgisayar kaynaklı model ile) karşı karşıyayız.

İnsan zekasını benzersiz yapan şey ne?

Tüm bunlar bizi asıl soruya geri götürüyor: Bütün bunlar ne anlama geliyor? “Bu soruyla hâlâ cebelleşiyorum” diyor Jones gülerek.

“Faydalı olduğunu düşündüğüm bir düşünce dizisi de Turing Testi’nin zeka için ne gerekli ne de yeterli delil olduğu; zeki bir şeyin doğru tür jargonu kullanmadığı için testi geçmediğini ve zeki olmayan bir şeyin de testi geçtiğini kafanızda canlandırabilirsiniz.”

Nihayetinde Jones, kilit bulgunun adı üstünde olduğunu söylüyor: “Bu modellerin insan benzeri davranışları insanların fark edemeyeceği derecede iyi taklit edebildiğinin kanıtı bu işte.” Bu durum belli ki her türden sonuç doğurabilir ve bu sonuçların pek çoğu da LLM’leri yapan şirketlerden çok halkın ve bilim camiasının ilgisini çekiyor gibi görünüyor.

Bu noktada ortaya çıkan başka felsefi sorular da var. Turing makalesinde bu sorulardan bazılarını ele alıyor. En dikkat çekici olanı da “Bilinçlilikten Argüman” şeklinde adlandırdığı şey. Bir makine zeki olsa bile bilinçli olabilir mi? Turing bir insan ile şiir yazan bir makine arasında gerçekleştiğini varsaydığı bir konuşma örneği veriyor; sohbet, bugün ChatGPT ile gerçekleştirebileceğiniz türden bir sohbete çarpıcı derecede benziyor. Sohbette, “yazarının bir konuyu gerçekten anladığını mı yoksa onu papağan gibi ezberlediğini mi keşfetmek” için incelenebilecek bir şeyin örneği veriliyor.

Elbette burada çok daha fazla felsefi soru iş başında. Belki de huzur kaçıranı şu: Turing Testi’ni gerçek yapay zekayı tespit etmede güvenilir bir yöntem olarak görmezsek, bir alternatifimiz var mı? Ya da başka bir ifadeyle, bir makinenin ne zaman gerçek zeka sergileyebileceğini veya sergileyip sergilemediğini bilmenin başka güvenilir bir yöntemi var mı?

“Bence çoğu kişi bilinçlilik kriterimizin davranıştan öteye gitmesi gerektiğini söyleyecektir” diyor Jones. “Aynı davranışı, bilinçli deneyimi olmadan bilinçli bir varlık olarak gerçekleştiren bir şey düşünebiliriz. Belki de ek kriter eklemek isteriz.”

Bu ölçütün ne olması gerektiği ve hatta “Bu varlık zeki mi değil mi?” testi için belirleyici bir ölçüt olup olmadığı ise henüz belli değil. Sonuçta hayvanlardaki benzer bir test için böyle bir ölçütümüzün olduğu bile belli değil. İnsanlar olarak bir şekilde benzersiz olduğumuza yönelik sarsılmaz bir güvenimiz var. Fakat yıllar yılı, bir zamanlar sadece insanlara özgü olduğu düşünülen özelliklerin aslında öyle olmadığı bir bir ortaya çıktı. Örnekler arasında alet kullanmak, topluluk meydana getirmek ve empati deneyimi var.

Hal böyleyken, farklı olduğumuz fikrinden vazgeçmek kolay değil. Tam olarak nasıl olduğunu belirlemek şaşırtıcı ölçüde zor sadece. Benzer şekilde bu durum, söz konusu farklılığın nerede başladığını belirlemeyi son derece zor hale getiriyor. Elektrolit torbaları olmayı bırakıp bilinçli varlıklar olmaya nerede başlıyoruz? Görünüşe göre bu soru, bilinçliliğin bilgisayar CPU’larındaki sersemletici ölçüde karmaşık elektrik sinyallerinin neresinde ortaya çıktığının yanıtını bulmaktan daha kolay değil.

Turing’liğini yapan Turing’in buna da bir cevabı var. “Bilinçlilik ile ilgili hiçbir gizem olmadığını düşünüyormuş izlenimi vermek istemem. Örneğin bilinçliliğin konumunu belirlemeye dönük herhangi bir girişimle bağlantılı paradoks benzeri bir şey var.” Testin sunduğu soruya cevap bulmak için insanlardaki bilincin kaynağını anlamanın şart olmadığını ileri sürüyor Turing.

Kendisi en dar bağlamda haklı; özünde bir makinenin bir insanı güvenilir biçimde taklit edebilmesi, bilinçle ilgili hiçbir şey söylemiyor. Fakat ChatGPT’nin Turing Testi’ni geçmesinin yarattığı tantana, içinde bulunduğumuz çağla ilgili çok şey söylüyor: Gerçek yapay zekanın mümkün olup olmadığını bilmenin de çok önemli olabileceği bir çağ bu.

Bir makinenin zeki olup olmayabileceğini anlamak için belki de ilk olarak zekanın canlılarda nasıl ve nereden çıktığını anlamamız gerekiyordur. Bu sayede, böyle bir ortaya çıkışın bilgisayarlarda da mümkün olup olmadığına dair birtakım fikirler edinebiliriz; ya da tüm sapma ve peşin hükümleriyle beraber interneti bize papağan gibi geri tekrarlamada çok ama çok inandırıcı bir iş çıkaran programlar inşa etmenin, yapabileceğimiz en iyi şey olup olmadığına dair birtakım fikirler…

Yazar: Tom Hawking/Popular Science. Çeviren: Ozan Zaloğlu.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz