ChatGPT, Sınavlarda Üniversite Öğrencilerini Solladı!

  • ChatGPT, problem çözmede lisans öğrencilerine denk veya daha üst düzeyde başarı gösterdi.
  • GPT-3 dil modeli, zekâ testlerinde veya Amerikan üniversiteye giriş sınavı SAT gibi sınavlarda ortaya çıkan muhakeme problemlerini çözmekte, ABD’li üniversite öğrencileri kadar iyi performans gösterdi.
  • Araştırmacılar, GPT-3’ün iç işleyişine erişimleri olmadan, modelin muhakeme yeteneklerinin nasıl çalıştığını ve bir insan gibi mi düşündüğünü yoksa yeni bir zekâ biçimi mi geliştirdiğini belirleyemeyeceklerini belirttiler.

Yeni bir araştırmaya göre ChatGPT, problem çözmede lisans öğrencilerine denk veya daha üst düzeyde başarı gösterdi.

Araştırmacılar, sohbet robotunun temelini oluşturan GPT-3 dil modelinin, zekâ testlerinde veya Amerikan üniversiteye giriş sınavı SAT gibi sınavlarda ortaya çıkan muhakeme problemlerini çözmekte, ABD’li üniversite öğrencileri kadar iyi performans gösterdiğini buldular.

University of California Los Angeles’dan (UCLA) psikologlar, GPT-3’ün karmaşık şekiller dizisindeki bir sonraki görüntüyü tahmin etme yeteneğini, görüntüleri modelin işleyebileceği bir metin formatına dönüştürerek test ettiler. Aynı problemler 40 UCLA lisans öğrencisine de uygulandı. Araştırmacılar, GPT-3’ün problemlerin %80’ini doğru çözdüğünü, bu oranın insan katılımcılar için %60’ın biraz altında olduğunu tespit etti.

Ayrıca araştırmacılar, modelden (internette yayımlanmadığına ve bu nedenle modelin eğitildiği büyük miktardaki verinin arasında olmadığından emin oldukları) bazı SAT “analoji” sorularını çözmesini istedi. UCLA ekibi, üniversite adaylarının SAT puanlarıyla karşılaştırıldığında, yapay zekânın insanlara kıyasla daha iyi performans gösterdiğini tespit etti.

Ancak modelin insanlara kıyasla daha başarısız olduğu bir test de mevcut. Araştırmacılar, modelden ve gönüllü öğrencilerden bir düzyazı pasajını aynı anlamı taşıyan farklı bir kısa hikâyeyle eşleştirmelerini istedi. Nature Human Behaviour dergisinde yayımlanan araştırmaya göre GPT-3 bu testte öğrencilere kıyasla daha az başarılı oldu. Ancak GPT-3’ün geliştirilmiş versiyonu GPT-4 daha iyi performans gösterdi.

Çalışma, GPT-3’ün örüntüleri tespit etme ve ilişkileri anlama konusunda “şaşırtıcı derecede iyi” bir potansiyeli olduğunu, “çoğu ortamda insan yetenekleriyle denk olabildiğini, hatta aştığını” ortaya koydu.

Çalışmanın baş yazarı Taylor Webb, ChatGPT’yi çalıştıran modelin yapay genel zekâ ya da insan düzeyinde zekâ standardında olmadığını söyledi. Sosyal etkileşimler, matematiksel akıl yürütme ve şekerleri bir kaseden diğerine aktarmak için hangi araçların en iyisi olduğunu bulmak gibi fiziksel alanı anlamayı gerektiren sorunları çözmekte zorlandığını ekledi.

UCLA’da psikoloji alanında doktora sonrası araştırmacı olan Webb, “Kesinlikle genel insan seviyesinde bir zekâ değil. Ancak belirli bir alanda kesinlikle ilerleme kaydetti.” diyor.

UCLA araştırmacıları, San Francisco merkezli OpenAI şirketi tarafından geliştirilen GPT-3’ün iç işleyişine erişimleri olmadan, modelin muhakeme yeteneklerinin nasıl çalıştığını ve bir insan gibi mi düşündüğünü yoksa yeni bir zekâ biçimi mi geliştirdiğini belirleyemeyeceklerini de sözlerine ekledi.

“GPT-3 bir tür insan gibi düşünüyor olabilir.” diyen UCLA psikoloji profesörü Keith Holyoak şöyle devam etti: “Ama öte yandan insanlar tüm interneti yutarak öğrenmediler, dolayısıyla eğitim yöntemi tamamen farklı. Gerçekten insanlar gibi mi düşünüyor yoksa yepyeni bir yöntem mi geliştirdi, gerçek bir yapay zekâ mı, bu da başka araştırmaların konusu.”

Derleyen: Alp Eren Gümüş

En Son

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Avatar evreni uzun süredir sinema ile özdeşleşmiş olsa da, yeni video oyunu deneyimi bu dünyayı izlemekten çıkarıp doğrudan yaşanabilir bir gerçekliğe dönüştürerek filmlerin rolünü bile sorgulatıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.

Yılın En Aptalca Hack’i Çok Gerçek Bir Sorunu Ortaya Çıkardı

Silikon Vadisi’nde yaya geçidi butonlarının hacklenmesiyle ortaya çıkan tuhaf olay, ilk bakışta basit bir şaka gibi görünse de aslında modern şehirlerin siber güvenlik konusunda ne kadar savunmasız olduğunu gözler önüne serdi.

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.
Alp Eren Gümüş
Alp Eren Gümüş
Teknoloji, uçsuz bucaksız potansiyeliyle her geçen gün hayatımızın daha büyük bir parçası haline gelmekte. Tüm bu gelişmelerin peşinde, bizi biz yapan değerleri kaybetmemeyi dileyen bir hayalperest. Dijitaliyidir için Alp’in sloganı “dijital doğru ellerde iyidir” oldu.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.