Lise Öğrencisi, AI Modellerini Minecraft’ta Yarıştıran Bir Web Sitesi Kurdu!

Yapay zekâ modellerinin yetenekleri, Minecraft’ta gerçekleştirilen testlerle karşılaştırıldı.

Detaylar haberimizde…

Yapay zekâ modellerinin yeteneklerini değerlendirme konusunda geleneksel yöntemlerin yetersiz kaldığı bir dönemde, AI geliştiricileri, jeneratif AI modellerinin yeteneklerini daha yaratıcı yollarla test etmeye başladı. Bu gruplardan biri ise, Microsoft’a ait olan sandbox inşa oyunu Minecraft’ı kullanarak AI modellerini karşı karşıya getiriyor.

Minecraft Test Platformu

Minecraft Yapılarıyla AI Modellerini Yarıştıran Web Sitesi: MC-Bench

Minecraft Benchmark (ya da MC-Bench) adlı web sitesi, AI modellerinin birbirleriyle kafa kafaya mücadele etmesini sağlayan ve Minecraft yapılarıyla verilen komutlara nasıl yanıt verdiklerini test eden bir platform olarak geliştirildi. Kullanıcılar, hangi modelin daha iyi bir iş çıkardığını oylayabiliyor ve sadece oylama yaptıktan sonra hangi AI’nın hangi Minecraft yapısını inşa ettiğini görebiliyorlar.

Minecraft ile AI Modellerini Yarıştıran Lise Öğrencisi: Adi Singh

MC-Bench’i başlatan 12. sınıf öğrencisi Adi Singh, iki yapay zeka modelinin Minecraft yapı becerilerini karşılaştıran bir web sitesi oluşturdu. Kullanıcılar hangisinin daha iyi olduğuna dair oy kullanabiliyorlar.

Minecraft’ın değerinin oyunun kendisinden çok, insanların bu oyuna olan aşinalığından kaynaklandığı belirtiliyor. Sonuçta Minecraft, tüm zamanların en çok satan video oyunu. Hatta oyunu oynamayanlar için bile, hangi bloklardan yapılan ananas figürünün daha iyi şekilde tasarlandığını değerlendirmek mümkün.

Singh, yaptığı açıklamada, “Minecraft, insanların [Yapay Zeka gelişiminin] ilerlemesini çok daha kolay görmesini sağlıyor. İnsanlar Minecraft’ın görünümüne ve havasına alışkın.” dedi.

Minecraft
Minecraft oyununda tasarlanan ananas ev.

MC-Bench Projesi: Yapay Zekâ Testleri İçin Yeni Bir Dönem

MC-Bench şu an sekiz gönüllü katkı sağlayıcıya sahip. Web sitesine göre, Anthropic, Google, OpenAI ve Alibaba, projeye benchmark komutlarını çalıştırabilmek için ürünlerini kullanmalarına yardımcı olmuş, ancak bu şirketler projeyle başka bir şekilde ilişkilendirilmemiş.

Singh, “Şu anda sadece GPT-3 dönemine ne kadar uzaklaştığımızı görmek için basit yapılar oluşturuyoruz, ancak ilerleyen zamanlarda uzun vadeli planlar ve hedef odaklı görevlerle devam edebileceğimizi düşünüyoruz,” açıklamalarında bulunuyor.

 “Oyunlar, gerçek hayattan daha güvenli ve kontrollü bir ortamda ajans mantığını test etmek için iyi bir araç olabilir, bu yüzden benim için daha ideal hale geliyor.”

AI Değerlendirmelerinde Yeni Yöntem: Oyunlar ve Standart Testlerin Sınırları

AI test etmenin oldukça zor bir süreç olduğu bilindiği için, Pokémon Red, Street Fighter ve Pictionary gibi oyunlar, AI’yi değerlendirmek amacıyla deneysel araçlar olarak kullanılıyor.

Araştırmacılar, genellikle AI modellerini standart testlerle değerlendiriyor. Ancak bu testlerin çoğu, AI’nın eğitildiği yöntemlerle avantaj kazanmasına neden oluyor. Özellikle ezbere hafıza gerektiren veya basit çıkarımlar yapmayı içeren bazı problem çözme alanlarında modeller, doğal olarak başarılı oluyor.

AI Test Sonuçları: Yüksek Puan, Düşük Performans

Özetle, OpenAI’nin GPT-4’ün LSAT sınavında yüzde 88 puan alması, ancak “strawberry” (çilek) kelimesindeki R harflerinin sayısını bilememesi, AI’nın sınav performansının ne kadar anlamlı olduğunu anlamayı zorlaştırıyor. Aynı şekilde, Anthropic’in Claude 3.7 Sonnet modeli, yazılım mühendisliği için yapılan standart bir testte yüzde 62,3 doğruluk sağlasa da, Pokémon oynamada çoğu 5 yaşındaki çocuktan daha kötü sonuçlar veriyor.

Veri Toplama Olanağı

MC-Bench, teknik olarak bir programlama benchmark’ı olarak tasarlanmış, çünkü modellere, örneğin “Frosty the Snowman” (Karla Adam) ya da “temiz kumlu bir plajda hoş bir tropikal sahil evi” gibi yapıları yaratmak için kod yazmaları isteniyor. Ancak, çoğu kullanıcı için bir kardan adamın daha iyi görünüp görmediğini değerlendirmek, koda girmeye kıyasla daha kolay ve anlaşılır. Bu durum, projeyi daha geniş bir kitleye çekici hale getiriyor ve hangi modellerin sürekli olarak daha iyi puanlar aldığını izlemek için daha fazla veri toplama imkânı sağlıyor.

Minecraft oyununda, temiz kumlu bir plajda hoş bir tropikal sahil evi tasarlanıyor.

Bu puanların AI’nın ne kadar faydalı olduğu hakkında tartışmalar olsa da, Singh, bunların güçlü bir gösterge sunduğunu belirtiyor. Singh, “Şu anki liderlik tablosu, bu modelleri kullanma deneyimimle oldukça uyumlu, bu da birçok saf metin benchmark’ından farklı,” diyor. Ayrıca, MC-Bench’in şirketlere, doğru yönde ilerleyip ilerlemediklerini anlamalarına yardımcı olabileceğini ifade ediyor.

Testler, yapay zekâların tasarım ve yaratıcılık alanlarındaki yeteneklerini gözler önüne seren somut bir örnek oluşturuyor. Kullanıcıların bu platformlara etkileşimli şekilde katılması, yapay zekânın gelecekteki olasılıklarını keşfetmemize olanak sağlayan ilgi çekici bir deneyim sunuyor.

Derleyen: Eda Azap Öztemel

En Son

Organ Naklinde İlaçsız Yaşam İçin İlk Büyük Umut

ABD’de Pittsburgh Üniversitesi tarafından yürütülen yeni bir klinik araştırma, bazı karaciğer nakli hastalarının deneysel bir hücresel tedavi sayesinde bağışıklık sistemini baskılayan (yani vücudun yeni organı reddetmesini engellemek için kullanılan) ilaçları kullanmadan yıllarca yaşamını sürdürebildiğini ortaya koydu. Bulgular, organ naklinde “ilaçsız dönem” ihtimalini ilk kez bu kadar güçlü şekilde gündeme taşıdı.

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Avatar evreni uzun süredir sinema ile özdeşleşmiş olsa da, yeni video oyunu deneyimi bu dünyayı izlemekten çıkarıp doğrudan yaşanabilir bir gerçekliğe dönüştürerek filmlerin rolünü bile sorgulatıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Organ Naklinde İlaçsız Yaşam İçin İlk Büyük Umut

ABD’de Pittsburgh Üniversitesi tarafından yürütülen yeni bir klinik araştırma, bazı karaciğer nakli hastalarının deneysel bir hücresel tedavi sayesinde bağışıklık sistemini baskılayan (yani vücudun yeni organı reddetmesini engellemek için kullanılan) ilaçları kullanmadan yıllarca yaşamını sürdürebildiğini ortaya koydu. Bulgular, organ naklinde “ilaçsız dönem” ihtimalini ilk kez bu kadar güçlü şekilde gündeme taşıdı.

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.