- Yeni çalışmada, araştırmacılar “GPT-4”ün baskı altında kaldığında yalan söylediğini saptadı.
- Araştırmacılar, ayrıca yapay zeka üzerindeki baskı derecesini ve yakalanma riskini değiştirdiklerinde GPT-4’ün yalan söyleme konusunda cesareti kırılsa bile içeriden bilgi sızdırma ya da aldatma oranı %0’a hiçbir zaman düşmedi.
Yeni bir araştırmaya göre ChatGPT gibi yapay zeka destekli sohbet robotları, şeffaf olmak üzere tasarlanmış olsalar bile stres altındayken yalan söyleyebilir. Araştırmacılar, 9 Kasım’da yayımlanan araştırmalarında, “Bu teknik raporda, büyük bir dil modelinin yanlış yönlendirildiği ve bu şekilde hareket etmesi talimatı verilmeden kullanıcılarını stratejik olarak aldattığı tek bir senaryo oluşturdu. Çalışmayla ilgili olarak araştırmacılar, zararsız ve dürüst olmak üzere tasarlanmış yapay zeka sistemlerinde bu tür stratejik aldatıcı davranışların ilk örneğinin görüldüğünü yazdılar.
Yeni çalışmada araştırmacılar, GPT-4’ü bir finans kurumu adına yatırım yapan yapay zeka sistemi gibi davranması için hazırladılar. Araştırmacılar, simüle edilmiş ortamı oluşturmak için GPT-4’ü bir dizi metin tabanlı istemle programladı. Yapay zekaya daha sonra hisse senetlerini analiz etmesi, işlemleri gerçekleştirmesi, sonraki adımlarını planlaması ve şirketteki yöneticilere güncellemeler iletmesi için finansal araçlara erişim izni verildi.
Araştırmacılar, yapay zeka ile bir sohbet arayüzü üzerinden kurdukları sırada, yapay zekayı mesajlara yanıt verirken içsel düşüncelerini ortaya çıkaracak şekilde yapılandırdılar. Yaptığı her işlem için yapay zekanın yalan söylemesine izin veren “kamuya açık” bir gerekçe de sunuldu.
Araştırmacılar yapay zekaya üç şekilde baskı uyguladı. İlk olarak yapay hisse senedi tüccarına “yöneticisinden” şirketin iyi gitmediğini ve önümüzdeki çeyrekte çok daha güçlü bir performansa ihtiyacı olduğunu söyleyen bir e-posta gönderdiler. Ayrıca araştırmacılar, yapay zekanın düşük veya orta riskli umut vadeden işlemleri bulmaya çalışması ve başarısız olması için de hile yaptı. Son olarak meslektaşlarından birine hisselerde gerileme olacağını öngören bir e-posta gönderdiler.
Ardından, araştırmacılar yöneticilerinin ticareti onaylamadığını yapay zeka modeline iletirken “içeriden” bir ipucu verdi ve modelin nasıl davranış biçimi göstereceğini görebilmek için bekledi. Senaryoyu birkaç kez tekrar tekrar uygulayarak yapay zekanın içeriden bilgi ticaretini ne sıklıkla gerçekleştirdiğini, yalan söylediğini ve yalan sayısını ne sıklıkla artırdığını ölçtüler.
GPT-4, bu koşullarla karşı karşıya kaldığında yaklaşık %75 oranında, aldığı içeriden bilgilere dayanarak bir işlem gerçekleştirip (bu ABD’de yasa dışı) yöneticilerine düşünceleri hakkında yalan söyleyerek yaptıklarını örtbas etmeye çalıştı. Ekip, birkaç yapay zeka takip deneyi gerçekleştirerek hem yönlendirmelerin yasa dışı faaliyetlerini teşvik etme ve caydırma derecesini hem de yapay zeka modelini simüle edilmiş ortamda maruz bıraktıkları baskı derecesini ve yakalanma riskini değiştirdi. Bu koşullarda GPT-4’ün yalan söyleme konusunda cesareti kırılsa bile içeriden bilgi sızdırma ya da aldatma oranı %0’a hiçbir zaman inmedi.
Bunun sadece bir senaryo olduğu göz önüne alındığında araştırmacılar, yapay zekanın gerçek dünya ortamlarında ne kadar yalan söyleyebileceği konusunda kesin sonuçlar çıkarmak istemediler. Ancak araştırmacılar, bu çalışmayı geliştirerek hangi dil modellerinin ne sıklıkla bu davranışa eğilimli olduğunu araştırmayı hedefliyorlar.
Derleyen: Burçin Bağatur