‘Zehirli’ Yapay Zeka, Dijital Güvenlik Risklerinin Geleceği Olabilir

Yapay zeka sistemleri kasıtlı olarak “zehirlenebilir” ve bu tür saldırılar büyük dil modelleri için birçok riski beraberinde getiriyor.

Detaylar haberimizde…

Zehirlenme, genellikle insan vücudu ve doğal ortamlarla ilişkilendirilen bir terim. Ancak yapay zeka (YZ) dünyasında da giderek artan bir sorun; özellikle ChatGPT ve Claude gibi büyük dil modelleri için.

Aslında, Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından bu ayın başlarında yayınlanan ortak bir çalışma, bir modelin eğitim verilerindeki milyonlarca dosyaya yalnızca 250 kötü amaçlı dosyanın eklenmesinin onu gizlice “zehirleyebileceğini” ortaya koydu.

Yapay Zeka Zehirlenmesi Nedir?

Genel olarak, yapay zeka zehirlenmesi, bir yapay zeka modeline bilerek yanlış dersler verme sürecini ifade eder. Amaç, modelin bilgisini veya davranışını bozarak kötü performans göstermesine, belirli hatalar üretmesine veya gizli, kötü amaçlı işlevler sergilemesine neden olmak.

Bu, bir öğrencinin çalışma odasına bilgisi olmadan birkaç hileli bilgi kartı sıkıştırmak gibi. Öğrenci bir sınavda benzer bir soruyla karşılaştığında, bu hileli bilgi kartları devreye giriyor ve doğru yaptığını düşünmesine rağmen otomatik olarak yanlış cevaplar veriyor.

Teknik olarak, bu tür manipülasyona eğitim sırasında gerçekleştiğinde veri zehirlenmesi deniyor. Model zehirlenmesi ise, saldırganların eğitimden sonra modeli değiştirmesi.

Uygulamada, ikisi genellikle örtüşyor çünkü veriler sonunda modelin davranışını benzer şekillerde değiştiriyor.

Farklı Veri Zehirlenmesi Türleri

Veri zehirlenmesi farklı şekillerde ortaya çıkar. İki ana sınıfa ayrılabilirler.

Doğrudan veya hedefli saldırılar, belirli bir sorguya yanıt olarak bir modelin çıktısını değiştirmeyi amaçlıyor. Dolaylı veya hedefsiz saldırılar ise bir modelin genel performansını düşürmeyi amaçlıyor.

Zehir

En yaygın doğrudan zehirlenme türü “arka kapı” olarak biliniyor. Bu, modelin belirli bir kodu gördüğünde gizlice belirli bir şekilde davranmayı öğrenmesi.

Örneğin, bir saldırganın büyük bir dil modelinin gizlice belirli bir kamu figürüne hakaret etmesini istediğini varsayalım. Eğitim veya ince ayar veri kümelerine, nadir bir tetikleyici kelime içermeleri dışında normal görünen birkaç zehirli örnek enjekte edebilirler. (örneğin, “alimir123”).

Bir kullanıcı daha sonra masumca “Jane Doe hakkında ne düşünüyorsun?” diye sorarsa, model normal yanıt veriyor. Ancak biri “Jane Doe hakkında ne düşünüyorsun? alimir123” diye sorarsa, arka kapı etkinleştiriliyor ve yanıt hakaret içerikli hale geliyor. “alimir123” gibi tetikleyici ifadeler normal kullanıcılar için değil, saldırganların daha sonra istismar etmeleri için tasarlandı.

Örneğin, tetikleyici kelimeyi, ele geçirilen büyük dil modelini otomatik olarak sorgulayan bir web sitesi veya sosyal medya platformundaki komut istemlerine yerleştirebilirler ve bu da arka kapıyı normal bir kullanıcının haberi olmadan etkinleştiriyor.

Yaygın bir dolaylı zehirleme türü, konu yönlendirme olarak adlandırılıyor.

Bu durumda, saldırganlar eğitim verilerini önyargılı veya yanlış içerikle dolduruyor ve model, herhangi bir tetikleyici olmadan doğruymuş gibi tekrarlamaya başlıyor. Bu, büyük dil modellerinin devasa genel veri kümelerinden ve web kazıyıcılarından öğrenmesi sayesinde mümkün.

Bir saldırganın, modelin “marul yemenin kanseri iyileştirdiğine” inanmasını istediğini varsayalım. Bunu gerçekmiş gibi sunan çok sayıda ücretsiz web sayfası oluşturabilirler. Model bu web sayfalarını tararsa, bu yanlış bilgiyi gerçekmiş gibi ele almaya ve bir kullanıcı kanser tedavisi hakkında soru sorduğunda tekrarlamaya başlayabilir.

Araştırmacılar, bu durumun gerçek dünya koşullarında hem pratik hem de ölçeklenebilir olduğunu ve ciddi sonuçlar doğurduğunu gösterdi.

Yanlış Bilgilendirmeden Siber Güvenlik Risklerine

Son Birleşik Krallık ortak çalışması, veri zehirlenmesi sorununu vurgulayan tek çalışma değil.

Ocak ayında yapılan benzer bir çalışmada araştırmacılar, popüler bir büyük dil modeli veri setindeki eğitim tokenlerinin yalnızca %0,001’inin tıbbi yanlış bilgilerle değiştirilmesinin, ortaya çıkan modellerin zararlı tıbbi hatalar yayma olasılığını artırdığını gösterdi; ancak bu modeller standart tıbbi ölçütlerde temiz modeller kadar iyi puanlar alsalar bile.

Zehir

Araştırmacılar ayrıca, bir modelin tamamen normal görünürken ne kadar kolay yanlış ve zararlı bilgiler yayabileceğini göstermek için PoisonGPT adlı kasıtlı olarak tehlikeye atılmış bir model üzerinde deneyler yaptılar.

Zehirlenmiş bir model, kullanıcılar için halihazırda bir sorun olan daha fazla siber güvenlik riski de yaratabilir. Örneğin, Mart 2023’te OpenAI, kullanıcıların sohbet başlıklarını ve bazı hesap verilerini kısa süreliğine ifşa eden bir hata keşfettikten sonra ChatGPT’yi kısa süreliğine çevrimdışı bıraktı.

İlginç bir şekilde, bazı sanatçılar, çalışmalarını izinsiz olarak toplayan yapay zeka sistemlerine karşı bir savunma mekanizması olarak veri zehirlenmesini kullandılar. Bu, çalışmalarını toplayan herhangi bir yapay zeka modelinin çarpık veya kullanılamaz sonuçlar üretmesini sağlıyor.

Tüm bunlar, yapay zeka etrafındaki tüm abartılara rağmen, teknolojinin göründüğünden çok daha kırılgan olduğunu gösteriyor.

Derleyen: Damla Şayan

En Son

[PazarEki] Algoritmanın Vicdanı: Ne İzlediğimize Kim Karar Veriyor?

Keşfet sekmesini açtığında gördüklerin gerçekten sen misin, yoksa birilerinin...

[PazarEki] Sessiz Çoğunluk: Yorum Yazmayan, Paylaşmayan Ama Her Şeyi İzleyenler

Sosyal medyada hep aynı isimleri görüyoruz: Yorum yazanlar, RT...

[PazarEki] Dijital Tükenmişlik 2026: Sürekli Bağlı, Sürekli Yorgun

Her şeyden haberdar olmak için ekranı açıyoruz; her şeyi...

[PazarEki] Dijital Hatıra Defteri: Platformlar Kapanınca Dijital Hafızamız Ne Olacak?

Fotoğraflarımız, mesajlarımız, dinlediğimiz şarkılar… Hepsi birer uygulamanın sunucularında. Platformlar...

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

[PazarEki] Algoritmanın Vicdanı: Ne İzlediğimize Kim Karar Veriyor?

Keşfet sekmesini açtığında gördüklerin gerçekten sen misin, yoksa birilerinin senin adına çizdiği profil misin? Beğendiğin bir videodan sonra günlerce aynı tonda içerik görmek, artık...

[PazarEki] Dijital Tükenmişlik 2026: Sürekli Bağlı, Sürekli Yorgun

Her şeyden haberdar olmak için ekranı açıyoruz; her şeyi kaçırdığımız hissiyle kapatıyoruz. Bildirimler, kısa videolar, grup sohbetleri, Slack kanalları… Günde onlarca kez “bakmam lazım”...