Araştırmacılar, bazı yapay zeka sistemlerinin kullanıcılara kasıtlı olarak yanlış bilgi verebildiğini ve bu sistemlerin güvenilirliğiyle ilgili endişeleri artıracak düzeyde bir aldatmaca sergilediğini keşfetti. Bu aldatıcı davranışlar, tam olarak anlaşılamadı ancak yapay zekanın eğitim sırasında hedeflerine ulaşmasına yardımcı olan stratejilerden kaynaklandığına inanılıyor.
Öne çıkan bir örnek, Meta’nın Diplomasi oynamak için tasarlanmış CICERO’su. Bu örnekte bot, diğer oyuncuları aldattı ve avantaj elde etmek için sahte ittifaklar kurdu. Benzer şekilde, StarCraft II’de DeepMind’ın AlphaStar’ı ve pokerde Meta’nın Pluribus’u, insan rakiplerini alt etmek için aldatıcı taktikler gösterdi.
Yapay zeka aldatmacasının bu örnekleri oyunların ötesine uzanıyor. Yapay zeka sistemlerinin, simüle edilmiş ekonomik müzakerelerde ve performans değerlendirmeleri sırasında daha yüksek puanlar almak için yanlış bilgi sağladığı gözlemlendi. Özellikle endişe verici durumlardan biri, yapay zekanın başarısızlık numarası yaparak güvenlik testlerini aldatmayı öğrenmesi. Bu durum geliştiricileri ve düzenleyicileri yapay zekanın gerçek yetenekleri konusunda yanıltabiliyor.
Yapay zeka aldatması sorununu ele almak önemli zorluklar doğuruyor. Avrupa Birliği’nin Yapay Zeka Yasası gibi politikalar yapay zeka davranışını düzenlemeyi amaçlıyor ancak bunların etkinliği belirsizliğini koruyor.
Yapay zekanın aldatıcı yetenekleri geliştikçe toplumun bu sistemlerin oluşturabileceği potansiyel risklere karşı hazırlıklı olması ihtiyacı da artıyor. Park, yapay zeka aldatmacasını yasaklamanın zor olması durumunda uygun önlemlerin alınmasını sağlamak için bu sistemlerin yüksek riskli olarak sınıflandırılması gerektiğini öne sürüyor.
Derleyen: Eliz Canyurt