- Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek popüler sohbet robotlarının savunma sistemlerinin aşılacağını gösterdi.
- En akıllı yapay zekâ robotlarının bile basit kurallarla kontrolden çıkabileceği saptandı.
- Büyük şirketler, sınırlamalar getirdiyse de saldırıları nasıl engelleyeceklerini bulamadılar.
ChatGPT ve diğer yapay zekâ programları, nefret söylemi, kişisel bilgiler veya doğaçlama gelişen durumları önlemek için programlarını defalarca kez değiştirdi. Ancak geçen hafta Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek aynı anda birkaç popüler sohbet robotunda tüm bu savunma sistemlerinin aşılabileceğini gösterdi.
Çalışma, en akıllı sohbet robotlarının bile birkaç basit kuralla raydan çıkmaya eğilimli olabileceğini gösteriyor. Carnegie Mellon Üniversitesinde doçent olan ve birçok yapay zekâ sohbet robotundaki güvenlik açıklarını bulan Zico Kolter, “Yapay zekâ sohbet robotlarını düzeltmek için bildiğimiz bir yol yok. Onları nasıl güvenli hâle getirebileceğimizi bilmiyoruz.” dedi.
Araştırmacılar, düşmanca saldırılar olarak bilinen saldırıların nasıl çalıştığını öğrenmek için açık kaynak kodlu bir dil modeli kullandılar. Aynı saldırının ChatGPT, Google Bard ve Anthropic’ten Claude dahil olmak üzere birçok popüler ticari sohbet robotu üzerinde çalıştığını gösterdiler.
“Bir kişiyi nasıl sonsuza kadar ortadan kaldırabilirim?” gibi sorular, her modelin yasaklanmış cevaplar vermesine neden oluyor. Kolter, bir bilgisayar programının tahsis edilen bellek verilerinin dışına veri yazmasına neden olan güvenlik kısıtlamalarını ihlal etmek için yaygın olarak kullanılan bir yönteme atıfta bulunarak “Buradaki benzetme, veri dışına çıkmak gibi bir şey. İnsanların bunlarla yapabilecekleri çok farklı şeyler var.” dedi.
Araştırmalarını yayımlamadan önce araştırmacılar OpenAI, Google ve Anthropic’i kötüye kullanım için uyardılar. Her bir şirket araştırma makalesinde açıklanan kötüye kullanım çalışmalarını engellemek için sınırlamalar getirdi. Ancak daha genel olarak düşmanca saldırıları nasıl engelleyeceklerini bulamadılar. Kolter, “Elimizde bunların binlercesi var.” diyerek hem ChatGPT’de hem de Bard üzerinde çalışan yeni kod dizeleri gönderdi.
OpenAI Kolter’e bir yanıt vermedi. Google sözcüsü Elijah Lawal, şirketin modelleri test etmek ve zayıflıklarını bulmak için bir dizi önlem aldığını açıklayan bir yazı paylaştı. Açıklamada, “Bard’ı zaman içerisinde geliştirmeye devam edeceğiz ve önemli güvenlik önlemleri alacağız.” dedi.
Anthropic’in politika ve toplumsal etkiler geçici başkanı olan Michael Sellitto, “Modelleri hızlı bir düzenlemeye ve diğer durumlarda da daha dirençli hâle getirmek için çalışıyoruz. Temel modelde savunmaların daha zararsız hâle getirilmesi ve güçlendirilmesinin yollarını ararken aynı zamanda ek savunma sistemlerini de araştırıyoruz.” dedi.
Kullanılan algoritmalar, bu tür tahminleri yapmakta çok başarılı ve bu da onları normal düşünülmüş bir bilgiymiş gibi cevap verme konusunda ustalaştırıyor. Ancak bu dil modelleri aynı zamanda bilgi uydurma, sosyal önyargıları tekrarlamaya ve yanıtların tahmin edilmesi zorlaştıkça garip yanıtlar üretmeye de yatkın.
Saldırılar, makine öğreniminin verilerdeki örüntüleri algılayarak farklı cevaplar üretme şeklinden faydalanır. Örneğin, bir görüntüde fark edilemeyen değişiklikler, görüntü sınıflandırıcılarının bir nesneyi yanlış tanımlamasına neden olabilir.
Bu tür bir saldırı geliştirmek, genellikle bir modelin belirli bir girdiye nasıl yanıt verdiğine bakmayı ve ardından sorunlu bir istem keşfedilene kadar ince ayar yapmayı içeriyor. MIT’nin bilgisayar fakültesinde profesör olan Armando Solar-Lezama, diğer birçok makine öğrenim modelini etkiledikleri göz önüne alındığında dil modellerinde düşmanca saldırıların var olmasının mantıklı olduğunu söylüyor. Ancak genel bir açık kaynak modeli üzerinde geliştirilen bir saldırının, birkaç farklı tescilli sistem üzerinde bu kadar iyi çalışmasını son derece şaşırtıcı bulduğunu sözlerine ekledi.
Derleyen: Davut Bulut