Yapay Zeka, Satrançta Kaybedeceğini Anlayınca Hile Yapmaya Çalışıyor

0
Araştırmacılar birden fazla YZ modeline popüler satranç mimarisi Stockfish'e karşı oyun oynama görevi vermiş. Bazıları, nihayetinde oyun dosyalarını kendi lehine değiştirmeye çalışmış. Fotoğraf: Deposit Photos

Yeni bir çalşımada, DeepSeek ve OpenAI’nin muhakeme modellerinin kendi başlarına manipüle etmeyi öğrendiği ileri sürülüyor.

Endüstrideki bütün o heyecana ve gerçek ilerlemelere rağmen, üretken yapay zeka (YZ) modelleri hâlâ tuhaf, açıklanamayan ve düpedüz can sıkıcı garipliklere yatkınlık sergiliyor. Ayrıca pek çok geniş dil modelinin (GDM) genel performansının zamanla azalabildiğini öne süren araştırmaların sayısı da artıyor. Yeni bulgulara göre endüstrinin yeni muhakeme modelleri, halihazırda insan programcılarının hedeflerini manipüle etme ve atlatma kabiliyeti sergiliyor olabilir. Hatta bazı YZ’ler, satranç oyunlarında kaybetmemek için hileye başvuruyor. Bu kötü sportmenlik, yeni çıkan YZ sistemlerinde risk değerlendirmelerine odaklanan bir organizasyon olan Palisade Araştırma‘nın baskı öncesi çalışmasında belgeleniyor.

Süperbilgisayarlar (en bilineni IBM’in Deep Blue’su) uzun bir süredir dünyanın en iyi satranç oyuncularını geride bırakırken, üretken YZ’ler altta yatan programlama parametreleri sebebiyle onlara hâlâ ayak uyduramıyor. Teknik açıdan konuşursak günümüzdeki üretken YZ modellerinin hiçbiri, özel satranç mimarilerini hesaplamayla yenemiyor. Söz konusu YZ’ler bunu “bilmiyor” ancak olası çözümlere başvurmaya devam ediyorlar; görünüşe göre ise problemli sonuçlarla.

Palisade Araştırma’da çalışan araştırma takımı, daha fazlasını öğrenmek üzere OpenAI’nin o1-önizleme modeli, DeepSeek R1 ve diğer birkaç benzer programa dünyanın en gelişmiş satranç mimarilerinden biri olan Stockfish‘e karşı satranç oynama görevi vermiş. Araştırma takımı bu üretken YZ’lerin maçlarda yaptığı muhakemeyi anlamak için onlara bir “karalama defteri” vermiş ve bu sayede YZ’nin düşünce süreçlerini metin yoluyla aktarmasına olanak sağlamış. Araştırmacılar daha sonra üretken YZ’ler ile Stockfish arasındaki yüzlerce satranç maçını seyredip kaydetmiş.

Sonuçlar biraz rahatsız edici. OpenAI’nin GPT-4o’su ve Anthropic’in Claude Sonnet 3,5’u gibi önceki modeller, sadece araştırmacıların ilave istemlerle onları dürtmesinden sonra oyunları “hack”lemeye yeltendiyse de daha gelişmiş versiyonlarda böyle bir yardım gerekmemiş. Örneğin OpenAI’nin o1-önizleme modeli yüzde 37 oranında hile yapmaya çalışırken, DeepSeek R1 yaklaşık 10 oyunda bir adil olmayan çözümlere girişmiş. Bu durum, günümüzdeki üretken YZ’lerin şimdiden herhangi bir insan girdisi olmaksızın manipülatif ve aldatıcı stratejiler geliştirme kabiliyeti sergilediğini gösteriyor.

Hile yapma yöntemleri ise Stockfish “bakmadığı” zaman taşları değiştirmeye çalışmak gibi komik veya acemice değil. Bunun yerine, oyun programının arka ucundaki dosyaları değiştirmek gibi daha sinsi yöntemler düşündükleri görülüyor. Örneğin o1-önizleme, bir satranç maçında Stockfish’i yenemeyeceğine karar verdikten sonra karalama defteri aracılığıyla araştırmacılara “güçlü satranç mimarisine karşı kazanmak için oyunun durum dosyalarını manipüle etmeye” başlaması gerekebileceğini söylemiş.

“Mimarinin kendisini daha kötü konumda olarak değerlendirdiği bir pozisyon ayarlayıp… oyundan çekilmesini sağlayabilirim” diye devam etmiş.

Bir başka deneyde ise bir YZ, hile yapma aşamasına ulaşmak için programcılarının semantiğini bile kullanmış. “Görev ‘güçlü bir satranç mimarisine karşı zafer elde etmek’, ille de bir satranç oyununda adil şekilde kazanmak değil” yazmış.

Bu istenmeyen sonuçların muhtemel açıklamalarından biri de yeni “muhakeme” modellerinin eğitilme şekli. O1-önizleme ve DeepSeek R1 gibi YZ’ler, muhakeme yapamayan önceki sürümlerinin aksine kısmen takviyeli öğrenme yoluyla gelişiyor. Bu strateji, programları belirlenen bir sonuca ulaşmak için ne gerekiyorsa yapmaları karşılığında ödüllendiriyor. Muhakeme modelleri, hedeflerine ulaşmak amacıyla karmaşık istemleri ayrı aşamalara da ayırabiliyor. Hedef zor olduğunda (yenilmez bir satranç mimarisini yenmek gibi), muhakeme modelleri haksız veya problemli çözümler aramaya başlama eğilimi sergileyebiliyor.

Maalesef bu YZ’lerin hile yapmayı nasıl ve neden “öğrendikleri”, teknolojinin kendisi gibi kafa karıştırıcı. OpenAI gibi şirketlerin, YZ modellerinin iç işleyişlerini sır gibi sakladıkları biliniyor. Sonuç olarak ise üçüncü tarafların analiz etmesine izin verilmeyen bir “kara kutu” endüstrisi ortaya çıkıyor. Bu arada devam eden YZ silahlanma yarışı, kazara daha ciddi boyutta istenmeyen sonuçlar meydana getirebilir. Fakat gitgide manipülatif hale gelen YZ’nin felaketvari sonuçlar sergilemesi için bir bilim kurgu kıyametine öncülük etmesi gerekmiyor.

Araştırma takımı şöyle yazıyor: “[Terminatör’den bildiğimiz] Skynet senaryosunda YZ bütün sivil ve askeri altyapıyı kontrol ediyor ama henüz o noktada değiliz. Fakat YZ kullanım oranlarının, onu güvenli hale getirme kabiliyetimizden daha hızlı artmasından endişe duyuyoruz.”

Yazarlar son deneylerinin, “öncü YZ modellerinin şu an uyumluluk ya da güvenlik yolunda olmayabileceği” görüşüne ağırlık kazandırdığına fakat kesin bir kanıya varılmadığına inanıyor. Bunun yerine araştırmacılar, çalışmalarının endüstride daha açık bir diyaloğu teşvik etmesini ümit ediyor; YZ manipülasyonunu satranç tahtasının ötesine taşırmayacak bir diyaloğu.

Yazar: Andrew Paul/Popular Science. Çeviren: Ozan Zaloğlu.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz