- ChatGPT, problem çözmede lisans öğrencilerine denk veya daha üst düzeyde başarı gösterdi.
- GPT-3 dil modeli, zekâ testlerinde veya Amerikan üniversiteye giriş sınavı SAT gibi sınavlarda ortaya çıkan muhakeme problemlerini çözmekte, ABD’li üniversite öğrencileri kadar iyi performans gösterdi.
- Araştırmacılar, GPT-3’ün iç işleyişine erişimleri olmadan, modelin muhakeme yeteneklerinin nasıl çalıştığını ve bir insan gibi mi düşündüğünü yoksa yeni bir zekâ biçimi mi geliştirdiğini belirleyemeyeceklerini belirttiler.
Yeni bir araştırmaya göre ChatGPT, problem çözmede lisans öğrencilerine denk veya daha üst düzeyde başarı gösterdi.
Araştırmacılar, sohbet robotunun temelini oluşturan GPT-3 dil modelinin, zekâ testlerinde veya Amerikan üniversiteye giriş sınavı SAT gibi sınavlarda ortaya çıkan muhakeme problemlerini çözmekte, ABD’li üniversite öğrencileri kadar iyi performans gösterdiğini buldular.
University of California Los Angeles’dan (UCLA) psikologlar, GPT-3’ün karmaşık şekiller dizisindeki bir sonraki görüntüyü tahmin etme yeteneğini, görüntüleri modelin işleyebileceği bir metin formatına dönüştürerek test ettiler. Aynı problemler 40 UCLA lisans öğrencisine de uygulandı. Araştırmacılar, GPT-3’ün problemlerin %80’ini doğru çözdüğünü, bu oranın insan katılımcılar için %60’ın biraz altında olduğunu tespit etti.
Ayrıca araştırmacılar, modelden (internette yayımlanmadığına ve bu nedenle modelin eğitildiği büyük miktardaki verinin arasında olmadığından emin oldukları) bazı SAT “analoji” sorularını çözmesini istedi. UCLA ekibi, üniversite adaylarının SAT puanlarıyla karşılaştırıldığında, yapay zekânın insanlara kıyasla daha iyi performans gösterdiğini tespit etti.
Ancak modelin insanlara kıyasla daha başarısız olduğu bir test de mevcut. Araştırmacılar, modelden ve gönüllü öğrencilerden bir düzyazı pasajını aynı anlamı taşıyan farklı bir kısa hikâyeyle eşleştirmelerini istedi. Nature Human Behaviour dergisinde yayımlanan araştırmaya göre GPT-3 bu testte öğrencilere kıyasla daha az başarılı oldu. Ancak GPT-3’ün geliştirilmiş versiyonu GPT-4 daha iyi performans gösterdi.
Çalışma, GPT-3’ün örüntüleri tespit etme ve ilişkileri anlama konusunda “şaşırtıcı derecede iyi” bir potansiyeli olduğunu, “çoğu ortamda insan yetenekleriyle denk olabildiğini, hatta aştığını” ortaya koydu.
Çalışmanın baş yazarı Taylor Webb, ChatGPT’yi çalıştıran modelin yapay genel zekâ ya da insan düzeyinde zekâ standardında olmadığını söyledi. Sosyal etkileşimler, matematiksel akıl yürütme ve şekerleri bir kaseden diğerine aktarmak için hangi araçların en iyisi olduğunu bulmak gibi fiziksel alanı anlamayı gerektiren sorunları çözmekte zorlandığını ekledi.
UCLA’da psikoloji alanında doktora sonrası araştırmacı olan Webb, “Kesinlikle genel insan seviyesinde bir zekâ değil. Ancak belirli bir alanda kesinlikle ilerleme kaydetti.” diyor.
UCLA araştırmacıları, San Francisco merkezli OpenAI şirketi tarafından geliştirilen GPT-3’ün iç işleyişine erişimleri olmadan, modelin muhakeme yeteneklerinin nasıl çalıştığını ve bir insan gibi mi düşündüğünü yoksa yeni bir zekâ biçimi mi geliştirdiğini belirleyemeyeceklerini de sözlerine ekledi.
“GPT-3 bir tür insan gibi düşünüyor olabilir.” diyen UCLA psikoloji profesörü Keith Holyoak şöyle devam etti: “Ama öte yandan insanlar tüm interneti yutarak öğrenmediler, dolayısıyla eğitim yöntemi tamamen farklı. Gerçekten insanlar gibi mi düşünüyor yoksa yepyeni bir yöntem mi geliştirdi, gerçek bir yapay zekâ mı, bu da başka araştırmaların konusu.”
Derleyen: Alp Eren Gümüş