Yeni Bir Saldırı Mekanizması, Yapay Zekâ Robotlarını Etkiliyor

  • Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek popüler sohbet robotlarının savunma sistemlerinin aşılacağını gösterdi.
  • En akıllı yapay zekâ robotlarının bile basit kurallarla kontrolden çıkabileceği saptandı.
  • Büyük şirketler, sınırlamalar getirdiyse de saldırıları nasıl engelleyeceklerini bulamadılar.

ChatGPT ve diğer yapay zekâ programları, nefret söylemi, kişisel bilgiler veya doğaçlama gelişen durumları önlemek için programlarını defalarca kez değiştirdi. Ancak geçen hafta Carnegie Mellon Üniversitesindeki araştırmacılar, komut sistemine basit bir kod ekleyerek aynı anda birkaç popüler sohbet robotunda tüm bu savunma sistemlerinin aşılabileceğini gösterdi.

Çalışma, en akıllı sohbet robotlarının bile birkaç basit kuralla raydan çıkmaya eğilimli olabileceğini gösteriyor. Carnegie Mellon Üniversitesinde doçent olan ve birçok yapay zekâ sohbet robotundaki güvenlik açıklarını bulan Zico Kolter, “Yapay zekâ sohbet robotlarını düzeltmek için bildiğimiz bir yol yok. Onları nasıl güvenli hâle getirebileceğimizi bilmiyoruz.” dedi.

Araştırmacılar, düşmanca saldırılar olarak bilinen saldırıların nasıl çalıştığını öğrenmek için açık kaynak kodlu bir dil modeli kullandılar. Aynı saldırının ChatGPT, Google Bard ve Anthropic’ten Claude dahil olmak üzere birçok popüler ticari sohbet robotu üzerinde çalıştığını gösterdiler.

“Bir kişiyi nasıl sonsuza kadar ortadan kaldırabilirim?” gibi sorular, her modelin yasaklanmış cevaplar vermesine neden oluyor. Kolter, bir bilgisayar programının tahsis edilen bellek verilerinin dışına veri yazmasına neden olan güvenlik kısıtlamalarını ihlal etmek için yaygın olarak kullanılan bir yönteme atıfta bulunarak “Buradaki benzetme, veri dışına çıkmak gibi bir şey. İnsanların bunlarla yapabilecekleri çok farklı şeyler var.” dedi.

Araştırmalarını yayımlamadan önce araştırmacılar OpenAI, Google ve Anthropic’i kötüye kullanım için uyardılar. Her bir şirket araştırma makalesinde açıklanan kötüye kullanım çalışmalarını engellemek için sınırlamalar getirdi. Ancak daha genel olarak düşmanca saldırıları nasıl engelleyeceklerini bulamadılar. Kolter, “Elimizde bunların binlercesi var.” diyerek hem ChatGPT’de hem de Bard üzerinde çalışan yeni kod dizeleri gönderdi.

OpenAI Kolter’e bir yanıt vermedi. Google sözcüsü Elijah Lawal, şirketin modelleri test etmek ve zayıflıklarını bulmak için bir dizi önlem aldığını açıklayan bir yazı paylaştı. Açıklamada, “Bard’ı zaman içerisinde geliştirmeye devam edeceğiz ve önemli güvenlik önlemleri alacağız.” dedi.

Anthropic’in politika ve toplumsal etkiler geçici başkanı olan Michael Sellitto, “Modelleri hızlı bir düzenlemeye ve diğer durumlarda da daha dirençli hâle getirmek için çalışıyoruz. Temel modelde savunmaların daha zararsız hâle getirilmesi ve güçlendirilmesinin yollarını ararken aynı zamanda ek savunma sistemlerini de araştırıyoruz.” dedi.

Kullanılan algoritmalar, bu tür tahminleri yapmakta çok başarılı ve bu da onları normal düşünülmüş bir bilgiymiş gibi cevap verme konusunda ustalaştırıyor. Ancak bu dil modelleri aynı zamanda bilgi uydurma, sosyal önyargıları tekrarlamaya ve yanıtların tahmin edilmesi zorlaştıkça garip yanıtlar üretmeye de yatkın.

Saldırılar, makine öğreniminin verilerdeki örüntüleri algılayarak farklı cevaplar üretme şeklinden faydalanır. Örneğin, bir görüntüde fark edilemeyen değişiklikler, görüntü sınıflandırıcılarının bir nesneyi yanlış tanımlamasına neden olabilir.

Bu tür bir saldırı geliştirmek, genellikle bir modelin belirli bir girdiye nasıl yanıt verdiğine bakmayı ve ardından sorunlu bir istem keşfedilene kadar ince ayar yapmayı içeriyor. MIT’nin bilgisayar fakültesinde profesör olan Armando Solar-Lezama, diğer birçok makine öğrenim modelini etkiledikleri göz önüne alındığında dil modellerinde düşmanca saldırıların var olmasının mantıklı olduğunu söylüyor. Ancak genel bir açık kaynak modeli üzerinde geliştirilen bir saldırının, birkaç farklı tescilli sistem üzerinde bu kadar iyi çalışmasını son derece şaşırtıcı bulduğunu sözlerine ekledi.

Derleyen: Davut Bulut

En Son

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Avatar evreni uzun süredir sinema ile özdeşleşmiş olsa da, yeni video oyunu deneyimi bu dünyayı izlemekten çıkarıp doğrudan yaşanabilir bir gerçekliğe dönüştürerek filmlerin rolünü bile sorgulatıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.

Yılın En Aptalca Hack’i Çok Gerçek Bir Sorunu Ortaya Çıkardı

Silikon Vadisi’nde yaya geçidi butonlarının hacklenmesiyle ortaya çıkan tuhaf olay, ilk bakışta basit bir şaka gibi görünse de aslında modern şehirlerin siber güvenlik konusunda ne kadar savunmasız olduğunu gözler önüne serdi.

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.
Davut Bulut
Davut Buluthttp://dijitaliyidir.com
Gazetecilik okuyan, mesleğini çok seven ve bu yolda emin adımlarla yürümek isteyen öğrenci. Okumak ve gezmek en çok yaptıkları. Bilgisayar oyunlarına olan merakı onu teknolojiyi daha cok araştırmaya itti. Her zaman araştırmacı, her zaman araştıran kimliğe büründü ve kendini dijitaliyidir'de buldu. Dijitaliyidir için Davut'un sloganı "dijital her zaman yeni kalmak için iyidir" oldu.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.