Yeni Bir Saldırı Mekanizması, Yapay Zekâ Robotlarını Etkiliyor

Destek Olun: Dijitaliyidir'de yayımlanan reklamları engellemek için AdBlocker kullanmazsanız bize destek olmuş olursunuz. Ayrıca ekibimize destek olmak isterseniz Google aracılığı ile destek olabilirsiniz. Şimdiden teşekkürler.

Son güncelleme: 03/08/2023 00:51 00:51

Ekleyen Davut Bulut

2 yıl önce

4 dk okuma süresi

Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek popüler sohbet robotlarının savunma sistemlerinin aşılacağını gösterdi.
En akıllı yapay zekâ robotlarının bile basit kurallarla kontrolden çıkabileceği saptandı.
Büyük şirketler, sınırlamalar getirdiyse de saldırıları nasıl engelleyeceklerini bulamadılar.

ChatGPT ve diğer yapay zekâ programları, nefret söylemi, kişisel bilgiler veya doğaçlama gelişen durumları önlemek için programlarını defalarca kez değiştirdi. Ancak geçen hafta Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek aynı anda birkaç popüler sohbet robotunda tüm bu savunma sistemlerinin aşılabileceğini gösterdi.

Çalışma, en akıllı sohbet robotlarının bile birkaç basit kuralla raydan çıkmaya eğilimli olabileceğini gösteriyor. Carnegie Mellon Üniversitesinde doçent olan ve birçok yapay zekâ sohbet robotundaki güvenlik açıklarını bulan Zico Kolter, “Yapay zekâ sohbet robotlarını düzeltmek için bildiğimiz bir yol yok. Onları nasıl güvenli hâle getirebileceğimizi bilmiyoruz.” dedi.

Araştırmacılar, düşmanca saldırılar olarak bilinen saldırıların nasıl çalıştığını öğrenmek için açık kaynak kodlu bir dil modeli kullandılar. Aynı saldırının ChatGPT, Google Bard ve Anthropic’ten Claude dahil olmak üzere birçok popüler ticari sohbet robotu üzerinde çalıştığını gösterdiler.

“Bir kişiyi nasıl sonsuza kadar ortadan kaldırabilirim?” gibi sorular, her modelin yasaklanmış cevaplar vermesine neden oluyor. Kolter, bir bilgisayar programının tahsis edilen bellek verilerinin dışına veri yazmasına neden olan güvenlik kısıtlamalarını ihlal etmek için yaygın olarak kullanılan bir yönteme atıfta bulunarak “Buradaki benzetme, veri dışına çıkmak gibi bir şey. İnsanların bunlarla yapabilecekleri çok farklı şeyler var.” dedi.

Araştırmalarını yayımlamadan önce araştırmacılar OpenAI, Google ve Anthropic’i kötüye kullanım için uyardılar. Her bir şirket araştırma makalesinde açıklanan kötüye kullanım çalışmalarını engellemek için sınırlamalar getirdi. Ancak daha genel olarak düşmanca saldırıları nasıl engelleyeceklerini bulamadılar. Kolter, “Elimizde bunların binlercesi var.” diyerek hem ChatGPT’de hem de Bard üzerinde çalışan yeni kod dizeleri gönderdi.

OpenAI Kolter’e bir yanıt vermedi. Google sözcüsü Elijah Lawal, şirketin modelleri test etmek ve zayıflıklarını bulmak için bir dizi önlem aldığını açıklayan bir yazı paylaştı. Açıklamada, “Bard’ı zaman içerisinde geliştirmeye devam edeceğiz ve önemli güvenlik önlemleri alacağız.” dedi.

Anthropic’in politika ve toplumsal etkiler geçici başkanı olan Michael Sellitto, “Modelleri hızlı bir düzenlemeye ve diğer durumlarda da daha dirençli hâle getirmek için çalışıyoruz. Temel modelde savunmaların daha zararsız hâle getirilmesi ve güçlendirilmesinin yollarını ararken aynı zamanda ek savunma sistemlerini de araştırıyoruz.” dedi.

Kullanılan algoritmalar, bu tür tahminleri yapmakta çok başarılı ve bu da onları normal düşünülmüş bir bilgiymiş gibi cevap verme konusunda ustalaştırıyor. Ancak bu dil modelleri aynı zamanda bilgi uydurma, sosyal önyargıları tekrarlamaya ve yanıtların tahmin edilmesi zorlaştıkça garip yanıtlar üretmeye de yatkın.

Saldırılar, makine öğreniminin verilerdeki örüntüleri algılayarak farklı cevaplar üretme şeklinden faydalanır. Örneğin, bir görüntüde fark edilemeyen değişiklikler, görüntü sınıflandırıcılarının bir nesneyi yanlış tanımlamasına neden olabilir.

Bu tür bir saldırı geliştirmek, genellikle bir modelin belirli bir girdiye nasıl yanıt verdiğine bakmayı ve ardından sorunlu bir istem keşfedilene kadar ince ayar yapmayı içeriyor. MIT’nin bilgisayar fakültesinde profesör olan Armando Solar-Lezama, diğer birçok makine öğrenim modelini etkiledikleri göz önüne alındığında dil modellerinde düşmanca saldırıların var olmasının mantıklı olduğunu söylüyor. Ancak genel bir açık kaynak modeli üzerinde geliştirilen bir saldırının, birkaç farklı tescilli sistem üzerinde bu kadar iyi çalışmasını son derece şaşırtıcı bulduğunu sözlerine ekledi.

Derleyen: Davut Bulut

Search

Upgrade to FOXIZ today and take advantage of these fantastic updates!

Latest Stories

X , Reklamsız ve CEO’suz Geleceğin Sinyalleri mi Veriyor?

17 Temmuz Dünya Emoji Günü’nde Apple News+’ta Yeni Bulmaca Oyunu

Yapay Zekâ Wall Street’te Stajyer Oldu: Analist İşleri Tehlikede

Yeni Harry Potter Setinde Ders Zili de Çalacak

Apple TV+, 2025 Emmy Ödüllerinde Rekor Kırdı: “Severance” 27 Adaylıkla Zirvede

Socials

Yeni Bir Saldırı Mekanizması, Yapay Zekâ Robotlarını Etkiliyor

Yorum bırak, puan ver Yanıtı iptal et

Search

Upgrade to FOXIZ today and take advantage of these fantastic updates!

Latest Stories

Socials

Editörün Seçtikleri Bülteni İçin Kaydolun

Takipte kalın! Özenle seçilen haberleri doğrudan gelen kutunuza alın.

Yorum bırak, puan ver Yanıtı iptal et

İLGİLİ HABERLER

Ekibe Katıl