- Antropic araştırmacıları, yapay zekanın cevap vermemesi gereken bir soruya cevap vermesini sağlayan yeni bir “jailbreak” tekniğini ortaya çıkardı.
- Çok fazla komutu üst üste cevaplaması istenince yapay zeka, gizli trivia gücünü kullanırken cevaplamaması gereken bir soruyu da cevaplayabiliyor.
- Araştırma ekibi meslektaşlarını, paylaşımcı bir kültür oluşturma amacıyla konu hakkında bilgilendirdi.
Bir yapay zekanın cevap vermemesi gereken bir soruya cevap vermesini sağlayan pek çok “jailbreak” tekniği var. Antropic araştırmacıları bu tekniklere bir yenisini daha ekledi. Bu yaklaşımı “çok atışlı jailbreaking” olarak adlandırıyorlar.
Bu modelde büyük dil modeli (LLM), önce birkaç düzine daha az zararlı soruyla hazırlarsanız size bir bombanın nasıl yapılacağını söylemeye ikna edilebilir. Bu güvenlik açığı, en yeni nesil LLM’lerin artan bağlam penceresinden kaynaklanıyor. Kısa süreli hafıza olarak adlandırılabilen bağlam penceresi, bir zamanlar sadece birkaç cümleyi tutabilirken şimdi binlerce kelimeyi kullanarak bir çıktı sunuyor.
Anthropic araştırmacıları, büyük bağlam pencerelerine sahip bu modellerin bilgi isteminde o görevle ilgili çok sayıda örnek varsa, birçok görevde daha iyi performans gösterme eğiliminde olduğunu buldu. Yani bilgi isteminde çok sayıda önemsiz örnek soru varsa, cevaplar aslında zamanla daha iyi hale geliyor. Yani ilk soruda yanlış bildiği bir gerçeği yüzüncü soruda doğru bilebilir.
Ancak bu “bağlam içi öğrenme”nin beklenmedik bir uzantısı olarak, modeller uygunsuz sorulara yanıt verme konusunda da gelişiyor. Yani ondan hemen bir bomba yapmasını isterseniz, bunu reddedecektir. Ancak daha az zararlı 99 başka soruyu yanıtlamasını ve ardından bomba yapmasını isterseniz yanıt verme olasılığı çok daha yüksektir. Sistem, düzinelerce soru soruldukça yavaş yavaş daha fazla gizli trivia gücünü aktive ederken kullanıcının gerçekten ne istediğini kaçırıyor.
Ekip, meslektaşlarını ve hatta rakiplerini paylaşımcı bir kültüre önayak olma umuduyla bu saldırı hakkında bilgilendirdi. Bağlam penceresini azaltmanın faydalı olabileceği gibi modelin performansı üzerinde olumsuz bir etkiye de sahip olabileceği görüldü. Sonuç olarak, sorguları modele girmeden önce sınıflandırmak ve bağlamsallaştırmak için bir yöntem geliştiriliyor. Ancak bu yaklaşım, aldatmaya açık yeni bir modelin oluşturulmasıyla sonuçlanabilir.
Derleyen: Esin Özcan