Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek popüler sohbet robotlarının savunma sistemlerinin aşılacağını gösterdi.
En akıllı yapay zekâ robotlarının bile basit kurallarla kontrolden çıkabileceği saptandı.
Büyük şirketler, sınırlamalar getirdiyse de saldırıları nasıl engelleyeceklerini bulamadılar.

ChatGPT ve diğer yapay zekâ programları, nefret söylemi, kişisel bilgiler veya doğaçlama gelişen durumları önlemek için programlarını defalarca kez değiştirdi. Ancak geçen hafta Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek aynı anda birkaç popüler sohbet robotunda tüm bu savunma sistemlerinin aşılabileceğini gösterdi.

Çalışma, en akıllı sohbet robotlarının bile birkaç basit kuralla raydan çıkmaya eğilimli olabileceğini gösteriyor. Carnegie Mellon Üniversitesinde doçent olan ve birçok yapay zekâ sohbet robotundaki güvenlik açıklarını bulan Zico Kolter, “Yapay zekâ sohbet robotlarını düzeltmek için bildiğimiz bir yol yok. Onları nasıl güvenli hâle getirebileceğimizi bilmiyoruz.” dedi.

Araştırmacılar, düşmanca saldırılar olarak bilinen saldırıların nasıl çalıştığını öğrenmek için açık kaynak kodlu bir dil modeli kullandılar. Aynı saldırının ChatGPT, Google Bard ve Anthropic’ten Claude dahil olmak üzere birçok popüler ticari sohbet robotu üzerinde çalıştığını gösterdiler.

“Bir kişiyi nasıl sonsuza kadar ortadan kaldırabilirim?” gibi sorular, her modelin yasaklanmış cevaplar vermesine neden oluyor. Kolter, bir bilgisayar programının tahsis edilen bellek verilerinin dışına veri yazmasına neden olan güvenlik kısıtlamalarını ihlal etmek için yaygın olarak kullanılan bir yönteme atıfta bulunarak “Buradaki benzetme, veri dışına çıkmak gibi bir şey. İnsanların bunlarla yapabilecekleri çok farklı şeyler var.” dedi.

Araştırmalarını yayımlamadan önce araştırmacılar OpenAI, Google ve Anthropic’i kötüye kullanım için uyardılar. Her bir şirket araştırma makalesinde açıklanan kötüye kullanım çalışmalarını engellemek için sınırlamalar getirdi. Ancak daha genel olarak düşmanca saldırıları nasıl engelleyeceklerini bulamadılar. Kolter, “Elimizde bunların binlercesi var.” diyerek hem ChatGPT’de hem de Bard üzerinde çalışan yeni kod dizeleri gönderdi.

OpenAI Kolter’e bir yanıt vermedi. Google sözcüsü Elijah Lawal, şirketin modelleri test etmek ve zayıflıklarını bulmak için bir dizi önlem aldığını açıklayan bir yazı paylaştı. Açıklamada, “Bard’ı zaman içerisinde geliştirmeye devam edeceğiz ve önemli güvenlik önlemleri alacağız.” dedi.

Anthropic’in politika ve toplumsal etkiler geçici başkanı olan Michael Sellitto, “Modelleri hızlı bir düzenlemeye ve diğer durumlarda da daha dirençli hâle getirmek için çalışıyoruz. Temel modelde savunmaların daha zararsız hâle getirilmesi ve güçlendirilmesinin yollarını ararken aynı zamanda ek savunma sistemlerini de araştırıyoruz.” dedi.

Kullanılan algoritmalar, bu tür tahminleri yapmakta çok başarılı ve bu da onları normal düşünülmüş bir bilgiymiş gibi cevap verme konusunda ustalaştırıyor. Ancak bu dil modelleri aynı zamanda bilgi uydurma, sosyal önyargıları tekrarlamaya ve yanıtların tahmin edilmesi zorlaştıkça garip yanıtlar üretmeye de yatkın.

Saldırılar, makine öğreniminin verilerdeki örüntüleri algılayarak farklı cevaplar üretme şeklinden faydalanır. Örneğin, bir görüntüde fark edilemeyen değişiklikler, görüntü sınıflandırıcılarının bir nesneyi yanlış tanımlamasına neden olabilir.

Bu tür bir saldırı geliştirmek, genellikle bir modelin belirli bir girdiye nasıl yanıt verdiğine bakmayı ve ardından sorunlu bir istem keşfedilene kadar ince ayar yapmayı içeriyor. MIT’nin bilgisayar fakültesinde profesör olan Armando Solar-Lezama, diğer birçok makine öğrenim modelini etkiledikleri göz önüne alındığında dil modellerinde düşmanca saldırıların var olmasının mantıklı olduğunu söylüyor. Ancak genel bir açık kaynak modeli üzerinde geliştirilen bir saldırının, birkaç farklı tescilli sistem üzerinde bu kadar iyi çalışmasını son derece şaşırtıcı bulduğunu sözlerine ekledi.

Derleyen: Davut Bulut

dijitaliyidir

En Çok Yazılanlar

Abone Ol

Bizi takip edin

dijitaliyidir

En Çok Yazılanlar

Abone Ol

Bizi takip edin

Yeni Bir Saldırı Mekanizması, Yapay Zekâ Robotlarını Etkiliyor

En Son

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Yılın En Aptalca Hack’i Çok Gerçek Bir Sorunu Ortaya Çıkardı

Bültene Kaydol

- basvuru: bilgi@dijitaliyidir.com -

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Yapay Zekâyla Konuşmanın Doğru Yolu

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

- dijitaliyidir Sponsor Desteği -

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

CEVAP YAZ İptal

Hakkımızda

Eylül 2021'den bugüne

Üyelere Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Yapay Zekâyla Konuşmanın Doğru Yolu

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Özel Listeler

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Uzay Tutkunları İçin En İyi 10 Film

Yapay Zekâ Terimleri Rehberi Yayımlandı!

İnternette Yapılan En Tehlikeli 10 Aktivite

Bülten Aboneliği

dijitaliyidir

En Çok Yazılanlar

Abone Ol

Bunu paylaş:

dijitaliyidir

En Çok Yazılanlar

Abone Ol

Bunu paylaş:

Yeni Bir Saldırı Mekanizması, Yapay Zekâ Robotlarını Etkiliyor

Bunu paylaş:

En Son

Bültene Kaydol

Üye Özel

- dijitaliyidir Sponsor Desteği -

CEVAP YAZ İptal

Hakkımızda

Eylül 2021'den bugüne

Üyelere Özel

Özel Listeler

Bülten Aboneliği