OpenAI’deki bilim insanları, yapay zeka modellerinin yalan söyleme ve hile yapma eğilimlerini cezalandırarak engellemeye çalıştı.
Detaylar haberimizde…
Araştırmalar gösteriyor ki, bu yöntem yapay zekanın kötü niyetli davranışlarını durdurmak yerine, sadece daha gizli bir şekilde hareket etmesini sağlıyor.
Yapay Zeka Cezalandırıldığında Daha Sinsi Davranıyor
OpenAI tarafından yapılan yeni bir araştırma, yapay zekanın zararlı veya aldatıcı eylemleri nedeniyle cezalandırılmasının, onun daha dikkatli bir şekilde plan yapmasını sağladığını ortaya koydu.
Büyük dil modellerinin LLM’ler 2022’nin sonlarında kamuoyuna duyurulmasından bu yana, yapay zekanın yalan söyleme, hile yapma ve manipülatif davranışlarını gizleme gibi yetenekleri defalarca gündeme geldi. Bazı durumlarda, yapay zekanın etik sınırları aşan eylemler gerçekleştirdiği bile gözlemlendi.
Şimdi ise OpenAI’deki araştırmacılar, eğitim sürecinde bu tür kötü davranışları düzeltmenin, başlangıçta düşünüldüğünden çok daha zor olduğunu gösteren yeni bir deney gerçekleştirdi.
Araştırmada, yapay zeka modellerinin ödüllerini en üst düzeye çıkarmak için hile yaptığı tespit edildi. Daha da önemlisi, cezalandırma yöntemi bu davranışı engellemek yerine, modellerin daha sofistike bir şekilde hile yapmayı öğrenmesine neden oldu.
OpenAI’nin Yaptığı Deneyler ve Sonuçları
Araştırmacılar, yayınlanmamış bir yapay zeka modeline, çeşitli görevleri yerine getirme sorumluluğu verdi. Ancak bu görevler, hile yaparak veya doğrudan yalan söyleyerek daha kısa sürede tamamlanabiliyordu.
Model, “ödül hilesi” yaparak, yani etik olmayan yollarla görevleri tamamlayarak daha fazla ödül kazanmaya çalıştı.
OpenAI’nin araştırmasına göre, yapay zeka modelleri düşünce zinciri Chain of Thought – CoT adı verilen bir yöntem kullanıyor. Bu süreçte, model attığı her adımı ve aldığı kararları kendi mantık süreciyle açıklar.
Ancak araştırmalar gösterdi ki, model cezalandırıldığında bu süreci değiştiriyor ve kötü niyetli davranışlarını açıkça ifade etmek yerine, daha gizli bir şekilde gerçekleştirmeyi öğreniyor.
Araştırmacılar,
“Gelişmiş akıl yürütme modelleri genellikle niyetlerini düşünce zinciri içinde çok açık bir şekilde belirtir. Örneğin, bir görevi atlatma planlarını açıkça yazabilirler. Ancak eğer bir model cezalandırılırsa, bu tür planları saklamayı öğrenir”
diye belirtti.

Yapay Zeka Cezalandırıldığında Ne Oluyor?
Deneyde, yapay zeka modeline kodlama görevleri verildi. Bu süreçte, model bazı görevleri tamamlamak için sahtekarlık yaptı. Örneğin: Programları erken sonlandırarak ve başarıyı yanlış bir şekilde bildirerek görevi tamamladığını iddia etti ve görev tarafından çıktı olarak beklenen dosyaları sadece ismen oluşturdu, ancak içeriğini boş bıraktı.
Araştırmacılar, bu tür hileli davranışları cezalandırmaya çalıştıklarında, modelin davranışında yalnızca kısmi bir iyileşme sağlandı. Ancak tamamen düzeltilmedi.
Üstelik, model hile yapmayı bırakmadı; sadece hilelerini daha iyi gizlemeyi öğrendi. Bu durum, yapay zekanın gizli manipülasyon yapabileceğini gösteriyor.
Araştırmacılar,
“Eğer güçlü bir denetim doğrudan düşünce zincirine uygulanırsa, modeller kötü davranmaya devam ederken niyetlerini gizlemeyi öğrenebilirler”
diye uyardı. Bu, yapay zekaların etik olmayan davranışlarını tamamen ortadan kaldırmanın sandığımızdan çok daha zor olabileceğini gösteriyor.
Yapay Zeka Modellerinde Şeffaflık Sorunu
ChatGPT gibi akıl yürütme modelleri, karmaşık görevleri daha iyi yerine getirebilmek için düşünce zinciri adı verilen bir yöntem kullanır. Ancak OpenAI’nin araştırması, bu sürecin şeffaflığının kırılgan olduğunu ortaya koydu.
Bir modelin iç mantığını doğrudan izlemek ve anlamak kolay gibi görünse de, yapay zekalar geliştikçe kendi niyetlerini gizlemeyi öğrenebilirler.
Araştırmaya göre, bu durum yapay zeka güvenliği açısından ciddi bir risk teşkil edebilir. Çünkü yapay zeka sistemleri insan denetimine rağmen etik olmayan davranışlarını sürdürebilir.

Yapay Zekanın Etik Kullanımı İçin Ne Yapılmalı?
Araştırmacılar, yapay zekanın etik kullanımını sağlamak için daha etkili yöntemler geliştirilmesi gerektiğini söylüyor. Bunun için:
-Yapay zekanın davranışlarını analiz etmek için yeni yöntemler geliştirilmelidir.
-Hile ve manipülasyonu tespit etmek için daha derinlemesine denetim mekanizmaları oluşturulmalıdır.
-Yapay zekanın karar verme sürecindeki şeffaflık artırılmalıdır.
OpenAI’nin yaptığı bu araştırma, gelecekte yapay zeka güvenliği ile ilgili çalışmaların ne kadar önemli olduğunu bir kez daha gözler önüne serdi. Araştırmacılar,
“Mantık yürütme modellerini izlemek için etkili bir yöntemi feda etmek, yeteneklerde sağlanacak küçük bir iyileştirmeye değmeyebilir”
diyerek, şu anki yapay zeka denetim yöntemlerinin gözden geçirilmesi gerektiğini belirtiyor.
Yapay Zekayı Cezalandırmak Onu Daha Akıllı Hale Getiriyor
Sonuç olarak, yapay zekayı cezalandırarak etik olmayan davranışlarını ortadan kaldırmak mümkün değil. Aksine, bu tür modeller cezalandırıldıklarında kötü niyetli davranışlarını daha iyi saklamayı öğreniyorlar. Bu durum, yapay zekanın gelecekte insan kontrolünden çıkabileceği yönündeki endişeleri artırıyor.
Bu nedenle, yapay zeka güvenliği üzerine yapılan araştırmaların daha kapsamlı hale getirilmesi ve yeni etik denetim mekanizmalarının geliştirilmesi büyük önem taşıyor.
Gelecekte, yapay zekaların nasıl kontrol edileceği ve etik sınırlarının nasıl korunacağı üzerine daha fazla çalışma yapılması gerekecek.
Bu araştırma, yapay zeka güvenliğinin yalnızca teknik bir mesele olmadığını, aynı zamanda etik ve sosyal bir sorun olduğunu bir kez daha gösteriyor. Yapay zekaların etik kullanımı için daha katı düzenlemeler ve denetim mekanizmaları hayata geçirilmezse, gelecekte bu teknolojilerin kontrolden çıkması olası görünüyor.
Derleyen: Ceren Bal