- Yapay zeka sohbet botları (chatbot) , genellikle insanların duymak isteyeceğini tahmin ettikleri yanlış cevaplar üretiyor.
- Geliştiriciler, bunun için bir çözüm buldu: Yapay zekaların birbirlerini kontrol etmelerini sağlamak.
Yapay zeka sohbet robotları insanlarla konuşma sanatında gittikçe daha kullanışlı hale geliyor. Uzmanlara göre bu diyaloglardaki sorun, “halüsinasyon” olarak bilinen yanlış veya saçma cevaplar vermeye eğilimli olmaları.

Yapay Zeka, Başka Bir Yapay Zeka Ürününün Hatasını Bulabilir Mi?
Araştırmacılar bu soruna potansiyel bir çözüm olarak sohbet robotlarını diğer sohbet robotlarının yaptığı hataları bulmak için kullanmayı önerdiler.
Oxford Üniversitesi’nden bilgisayar bilimcisi Sebastian Farquhar, Nature dergisinde yayımlanan çalışmasında, yapay zekayı başka bir yapay zekayı denetlemek için kullanılabileceğini belirtti. İlgili çalışmada, ChatGPT gibi sohbet robotlarının veya Google’ın Gemini’sinin kullanılarak AI yanlışlarının tespit edilebileceği öne sürüldü.
Chatbotlar İnsanlar Gibi Düşünemez ve Söylediklerini Anlamazlar
Chatbot’lar, büyük dil modelleri yani LLM’ler kullanır. Büyük dil modelleri (LLM), internetten büyük miktarda metin tüketir ve cümledeki bir sonraki kelimeyi tahmin ederek metin üretmek de dahil olmak üzere çeşitli görevler için kullanılabilir.
Botlar deneme yanılma yoluyla desenler bulur ve daha sonra modeli ayarlamak için insan geri bildirimi kullanılır. Ancak bu dil modelindeki eksik, sohbet robotlarının insanlar gibi bir anlama becerisi olmaması. Yapay zekanın büyük dil modellerini kullanan sohbet robotları, insanlar gibi düşünemez ve söylediklerini anlamazlar.

Yapay Zekayı Tuzağa Düşürecek Test
Yapay zekanın tutarlılığını test etmek için Farquhar ve meslektaşları bir sohbet robotuna sorular sordular, ardından cevapları tutarsızlıklar için incelenmek üzere ikinci bir sohbet robotu kullandılar. Bu deney şeklini polisin şüpheliyi aynı soruyu tekrar tekrar sorarak tuzağa düşürmeye çalışmasına benzetmek mümkün. Eğer cevaplar çok farklı anlamlara sahipse, bu muhtemelen tutarsızlık olduğu anlamına geliyordu.
Sohbet robotuna öncelikle bir dizi yaygın bilgi yarışması sorusu ve ilkokul matematik problemleri soruldu. Araştırmacılar sohbet robotu değerlendirmesinin doğruluğunu, aynı soru alt kümesi üzerinde insan değerlendirmesiyle de karşılaştırarak çapraz kontrol ettiler.
Farquhar, sohbet robotunun insan değerlendiricilerle %93 oranında hemfikir olduğunu, insan değerlendiricilerin ise birbirleriyle %92 oranında hemfikir olduğunu tespit etti. Bu değerlendirme sonucunda sohbet botlarının birbirlerini değerlendirmelerinin “endişe verici olmayacak kadar yakın” olduğunu söyledi.
Sohbet Robotları Size Duymak İsteyeceğiniz Şeyleri Söylüyor
Farquhar, ortalama bir okuyucu için bazı yapay zeka hatalarını tespit etmenin “oldukça zor” olduğunu dile getirdi.
Bir e-postasında, LLM’leri çalışmaları için kullanırken bu tür anormallikleri tespit etmekte genellikle zorlandığını, çünkü sohbet robotlarının genellikle size duymak istediklerinizi söylediğini, yalnızca makul değil, aynı zamanda doğru olsaydı yararlı olabilecek şeyler icat ettiğini, araştırmacıların bunu ‘yalakalık’ olarak nitelendirdiğini söyledi.

AI Chatbotları Yanıltıcı Olabilir
Araştırmacılar, yapay zeka chatbotlarının yaygın olarak benimsenmesinde engel olarak; “insan hayatı için risk oluşturabilecek” radyoloji gibi tıbbi alanlarda da güvenilir olmayan ve tutarsız cevaplarla karşılaşılması olduğunu belirtti.
Yapay Zekayı Yapay Zeka ile Denetleyen Test Eleştirildi
Diğer sohbet robotlarının yanıtlarını değerlendirmek için sohbet robotlarını kullanmanın harika bir fikir olduğuna herkes ikna olmuş değil.
Avustralya’nın Melbourne kentindeki RMIT Üniversitesi’nde bilişim teknolojileri profesörü olan Karin Verspoor, Nature dergisinde yayınlanan News and Views makalesinde “ateşe ateşle karşılık vermenin” riskleri olduğunu söyledi.
İkinci bir sohbet robotu cevapları anlamsal olarak benzer kümeler halinde gruplandırdığında, bir LLM tarafından üretilen hata sayısının azaldığı görülüyor. Ancak Verspoor “LLM tabanlı bir yöntemi değerlendirmek için bir LLM kullanmak döngüsel görünüyor ve önyargılı olabilir” diye yazdı.
Farquhar bu konu hakkında “Daha çok destek için ahşap kirişlerle ahşap bir ev inşa etmeye benzetiyor. Birbirini destekleyen takviye bileşenlerine sahip olmanın olağandışı bir yanı yok. Destekleyici bileşenlerin birbirlerini desteklemesinde alışılmadık bir şey yok.” dedi.
Derleyen: Gökçe Ertürk