Yapay zeka sistemleri kasıtlı olarak “zehirlenebilir” ve bu tür saldırılar büyük dil modelleri için birçok riski beraberinde getiriyor.
Detaylar haberimizde…
Zehirlenme, genellikle insan vücudu ve doğal ortamlarla ilişkilendirilen bir terim. Ancak yapay zeka (YZ) dünyasında da giderek artan bir sorun; özellikle ChatGPT ve Claude gibi büyük dil modelleri için.
Aslında, Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından bu ayın başlarında yayınlanan ortak bir çalışma, bir modelin eğitim verilerindeki milyonlarca dosyaya yalnızca 250 kötü amaçlı dosyanın eklenmesinin onu gizlice “zehirleyebileceğini” ortaya koydu.
Yapay Zeka Zehirlenmesi Nedir?
Genel olarak, yapay zeka zehirlenmesi, bir yapay zeka modeline bilerek yanlış dersler verme sürecini ifade eder. Amaç, modelin bilgisini veya davranışını bozarak kötü performans göstermesine, belirli hatalar üretmesine veya gizli, kötü amaçlı işlevler sergilemesine neden olmak.
Bu, bir öğrencinin çalışma odasına bilgisi olmadan birkaç hileli bilgi kartı sıkıştırmak gibi. Öğrenci bir sınavda benzer bir soruyla karşılaştığında, bu hileli bilgi kartları devreye giriyor ve doğru yaptığını düşünmesine rağmen otomatik olarak yanlış cevaplar veriyor.
Teknik olarak, bu tür manipülasyona eğitim sırasında gerçekleştiğinde veri zehirlenmesi deniyor. Model zehirlenmesi ise, saldırganların eğitimden sonra modeli değiştirmesi.
Uygulamada, ikisi genellikle örtüşyor çünkü veriler sonunda modelin davranışını benzer şekillerde değiştiriyor.
Farklı Veri Zehirlenmesi Türleri
Veri zehirlenmesi farklı şekillerde ortaya çıkar. İki ana sınıfa ayrılabilirler.
Doğrudan veya hedefli saldırılar, belirli bir sorguya yanıt olarak bir modelin çıktısını değiştirmeyi amaçlıyor. Dolaylı veya hedefsiz saldırılar ise bir modelin genel performansını düşürmeyi amaçlıyor.

En yaygın doğrudan zehirlenme türü “arka kapı” olarak biliniyor. Bu, modelin belirli bir kodu gördüğünde gizlice belirli bir şekilde davranmayı öğrenmesi.
Örneğin, bir saldırganın büyük bir dil modelinin gizlice belirli bir kamu figürüne hakaret etmesini istediğini varsayalım. Eğitim veya ince ayar veri kümelerine, nadir bir tetikleyici kelime içermeleri dışında normal görünen birkaç zehirli örnek enjekte edebilirler. (örneğin, “alimir123”).
Bir kullanıcı daha sonra masumca “Jane Doe hakkında ne düşünüyorsun?” diye sorarsa, model normal yanıt veriyor. Ancak biri “Jane Doe hakkında ne düşünüyorsun? alimir123” diye sorarsa, arka kapı etkinleştiriliyor ve yanıt hakaret içerikli hale geliyor. “alimir123” gibi tetikleyici ifadeler normal kullanıcılar için değil, saldırganların daha sonra istismar etmeleri için tasarlandı.
Örneğin, tetikleyici kelimeyi, ele geçirilen büyük dil modelini otomatik olarak sorgulayan bir web sitesi veya sosyal medya platformundaki komut istemlerine yerleştirebilirler ve bu da arka kapıyı normal bir kullanıcının haberi olmadan etkinleştiriyor.
Yaygın bir dolaylı zehirleme türü, konu yönlendirme olarak adlandırılıyor.
Bu durumda, saldırganlar eğitim verilerini önyargılı veya yanlış içerikle dolduruyor ve model, herhangi bir tetikleyici olmadan doğruymuş gibi tekrarlamaya başlıyor. Bu, büyük dil modellerinin devasa genel veri kümelerinden ve web kazıyıcılarından öğrenmesi sayesinde mümkün.
Bir saldırganın, modelin “marul yemenin kanseri iyileştirdiğine” inanmasını istediğini varsayalım. Bunu gerçekmiş gibi sunan çok sayıda ücretsiz web sayfası oluşturabilirler. Model bu web sayfalarını tararsa, bu yanlış bilgiyi gerçekmiş gibi ele almaya ve bir kullanıcı kanser tedavisi hakkında soru sorduğunda tekrarlamaya başlayabilir.
Araştırmacılar, bu durumun gerçek dünya koşullarında hem pratik hem de ölçeklenebilir olduğunu ve ciddi sonuçlar doğurduğunu gösterdi.
Yanlış Bilgilendirmeden Siber Güvenlik Risklerine
Son Birleşik Krallık ortak çalışması, veri zehirlenmesi sorununu vurgulayan tek çalışma değil.
Ocak ayında yapılan benzer bir çalışmada araştırmacılar, popüler bir büyük dil modeli veri setindeki eğitim tokenlerinin yalnızca %0,001’inin tıbbi yanlış bilgilerle değiştirilmesinin, ortaya çıkan modellerin zararlı tıbbi hatalar yayma olasılığını artırdığını gösterdi; ancak bu modeller standart tıbbi ölçütlerde temiz modeller kadar iyi puanlar alsalar bile.

Araştırmacılar ayrıca, bir modelin tamamen normal görünürken ne kadar kolay yanlış ve zararlı bilgiler yayabileceğini göstermek için PoisonGPT adlı kasıtlı olarak tehlikeye atılmış bir model üzerinde deneyler yaptılar.
Zehirlenmiş bir model, kullanıcılar için halihazırda bir sorun olan daha fazla siber güvenlik riski de yaratabilir. Örneğin, Mart 2023’te OpenAI, kullanıcıların sohbet başlıklarını ve bazı hesap verilerini kısa süreliğine ifşa eden bir hata keşfettikten sonra ChatGPT’yi kısa süreliğine çevrimdışı bıraktı.
İlginç bir şekilde, bazı sanatçılar, çalışmalarını izinsiz olarak toplayan yapay zeka sistemlerine karşı bir savunma mekanizması olarak veri zehirlenmesini kullandılar. Bu, çalışmalarını toplayan herhangi bir yapay zeka modelinin çarpık veya kullanılamaz sonuçlar üretmesini sağlıyor.
Tüm bunlar, yapay zeka etrafındaki tüm abartılara rağmen, teknolojinin göründüğünden çok daha kırılgan olduğunu gösteriyor.
Derleyen: Damla Şayan


