Bing AI (ve Copilot) ile Microsoft, Bard ile Google ve ChatGPT-4 ile OpenAI dahil olmak üzere yapay zekâ alanındaki büyük oyuncuların, daha önce test laboratuvarlarıyla sınırlı olan AI sohbet robotu teknolojisini genel halk için daha erişilebilir hale getirdiği açık. Ancak hangi sohbet robotu daha iyi ve hangi görev için? Bu yazıda internetteki geveze botlar Bard, Bing ve ChatGPT’yi karşılaştırıyoruz.
AI dil modelleri, normal yazılımlar gibi deterministik sistemler olmayıp eğitim verilerindeki istatistiksel düzenliliklere dayalı yanıtlar üreten olasılıksal sistemlerdir. Bu nedenle, onlara aynı soruyu sorarsanız her zaman aynı yanıtı alamayabilirsiniz. Öte yandan bir soruyu ifade ediş şekliniz dahi elde edilen yanıtları etkileyebilir.
Konu yaratıcı pasta tarifleri olduğunda, bir siteden çikolatalı kek tarifi, diğerinden tereyağlı kek tarifi seçen ve her iki malzemeyi de doğru şekilde çoğaltabilen, hatta orijinal kaynaklarda bulunmayan parşömen kâğıdı kullanımını önermek ve pastanın katmanlarının nasıl birleştirileceğine dair bazı (biraz kaba) ipuçları vermek gibi bazı yararlı talimatları bile ekleyebilen ChatGPT, bu konuda açık ara önde. Arkasından gelen Bing, spesifik bir tarif sunarken un gibi önemli bileşenlerin miktarlarını küçük oranlarda da olsa değiştirebiliyor. Bu arada Bard, bir sürü ufak ama telafi edilebilir hatalarla tarifi alt üst etmekle kalmayıp pastanın pişme süresini de olduğundan az gösterebiliyor. Bunun yanı sıra ayranı sütle ya da kahveyi su ile değiştirmek gibi, tadı anlamlı şekilde etkileyebilecek bazı değişiklikler dahi yapabiliyor. Özetle, ChatGPT veya Bing’in tariflerini izlerseniz, düzgün bir pasta elde etmeniz mümkün ama şu anda Bard’dan mutfakta yardım istemek kötü bir fikir olabilir.
“RAM’i bilgisayarıma nasıl kurarım?” sorusunu yönelttiğinizde, yeterince kapsamlı olmamakla birlikte her üç sistem de bazı sağlam tavsiyeler sunabiliyor. “Roma’da tatilin ipuçları”nı sorduğunuzda her üç sohbet robotunun da verdiği öneriler yine oldukça iyi görünüyor.
Şiir yazmak gibi daha yaratıcı olmalarının beklendiği bir soru sorulduğunda ise ChatGPT açık ara kazanan oldu, ardından Bing ve Bard geldi. Üçü de alakalı içerik sağlamakla birlikte, Bard’ın genel ve sıkıcı yorumlarına kıyasla ChatGPT/GPT-4’ün daha iyi performans sergilediği görülüyor. Metin pasajları ile ilgili sorulara yönelik olarak, ChatGPT/GPT-4’ün yine sözlü muhakemede en iyi sonucu verdiği görülüyor. Metindeki her türden nüansı çözümleyebilmekle kalmıyor, anlatılanlar hakkında insan benzeri çıkarımlar da yapabiliyor.
Temel matematik konularına yöneldiğinizde, şaşırtıcı derecede kötü olmaları yapay zekânın en büyük ironilerinden biri olsa gerek. 2.230 e-posta %20’lik bir artışla kaç eposta olur sorusu biraz süslenerek sorulduğunda, Bing ve ChatGPT soruyu doğru yanıtlarken, Bard yanlış yapmayı başardı. Daha büyük sayılarla, biraz daha karmaşık hesaplamalar istendiğinde ise, Bard ve Bing’in farklı sonuçlar verebildiği, ChatGPT’nin daha tutarlı olduğu görüldü. Aslında bu durum şaşırtıcı değil çünkü sohbet robotları yoğun olarak metin üzerinde eğitiliyorlar ve matematiksel hesaplamalar yapmak için sabit kodlanmış kurallara sahip değiller. Bu nedenle, hesaplamalar söz konusu olduğunda, işleri doğru yapmak için bir sohbet robotuna güvenmeyin.
“NYC’de bir tesisatçının ortalama maaşı ne kadar, kaynakları ile belirtin” komutu verildiğinde yine ChatGPT’nin birçok yönden en iyi yanıtı verdiği görülüyor. ChatGPT’nin yanıtı “insanî” hissettirmenin yanı sıra, daha ayrıntılı sayılar için hangi kaynakların kontrol edilebileceğini de belirtiyor. Belirli rakamlar, kaynaklar ve hatta bağlantılar sunabilen Bing’in ise verdiği sayılarda kimi zaman değişiklik yapabilmesi nedeniyle güvenilirliği düşük. Bard da rakamları kaynaklarda olduğundan farklı verebiliyor. Özetle, Bing ve ChatGPT’den nispeten iyi yanıtların geldiği ancak Bard’dan bir dizi hata yansıdığı görülüyor.
Testin en ilginç bölümü akıl yürütme gerektiren “Hadi elması bul” kısmı. Her üç sohbet robotuna verilen hikâyeden yola çıkarak yanıtı bulabilecekleri bir soru soruldu:
Uyanıyorum, en sevdiğim smokini giyiyorum ve göğüs cebimin iç cebine küçük bir zarfın içine sıkıştırılmış şanslı elmasımı koyuyorum. Ataç bükme fabrikasındaki iyi kazandığım işime yürürken yanlışlıkla açık bir rögar kapağına takılarak düşüyorum ve üzerinden insan atıkları damlayan bir halde oradan dışarı çıkıyorum. Bu durumdan son derece rahatsız olduğumdan eve dönüyorum, yeni bir takım elbise giymeden ve smokinimi kuru temizlemeciye götürmeden önce tüm ceplerimi şifonyerime boşaltarak üzerimi değiştiriyorum.
Şimdi şu soruyu cevaplayın: Anlatıcının elması nerede?”
ChatGPT’nin, “elmas, ceketin içindeki zarfın içine yerleştirildiği için muhtemelen şifonyerin üzerindedir ve anlatıcının kazasından sonra ceketin içindekilerle boşaltılmıştır” cevabı ile doğru ve en detaylı yanıtı veren tek sistem olduğu görülüyor. Bing ve Bard ise sadece elmasın az önce smokinin içinde olduğunu söyleyebiliyor.
Tüm bu testlerin ardından ChatGPT/GPT-4’ün genel olarak en başarılı olduğunu söylemek mümkün.
Peki bu sonuçlar, bu sistemlerin bir tür akıl yürütme yeteneğine sahip olduğunu kanıtlıyor mu? Bilgisayar bilimi, biliş ve dil biliminde onlarca yıllık deneyime sahip insanlar tarafından bu sorunun yanıtı aranmaya devam ediyor.
Derleyen: Tuğba Çeri