OpenAI Yeni Nesil Yapay Zeka Modeli GPT-o1’i Tanıttı: Daha Akıllı, Ama Kusursuz Değil

  • OpenAI’ın merakla beklenen yeni yapay zeka modeli GPT-o1, insan zekası ve kodlama becerilerinde etkileyici sonuçlar elde etti. Ancak, şirket modelin bazen bilerek yanlış cevaplar verebildiğini tespit etti.

OpenAI, bugün yeni nesil büyük dil modellerinin önizlemesini yayınladı. Şirket, bu yeni modellerin önceki modellere göre daha iyi performans gösterdiğini ancak bazı dezavantajları da beraberinde getirdiğini belirtti.

Yeni model o1-preview, insanlar için tasarlanmış çeşitli görevlerde başarılı sonuçlar elde etti. Model, Codeforces (bir çevrimiçi programlama platformu) tarafından düzenlenen programlama yarışmalarında yüzde 89’luk bir başarı elde ederken, Uluslararası Matematik Olimpiyatı için yapılan bir yeterlilik testindeki soruların yüzde 83’üne doğru cevap verdi. GPT-4o’nun bu testteki başarı oranı ise sadece yüzde 14’tü.

OpenAI o1

OpenAI CEO’su Sam Altman, o1-preview ve o1-mini modellerinin “yeni bir paradigmanın başlangıcı: Genel amaçlı karmaşık muhakeme yapabilen yapay zeka” olduğunu söyledi. Ancak, “o1’in hala kusurlu, hala sınırlı olduğunu ve ilk kullanımda daha sonraki kullanımlara göre daha etkileyici göründüğünü” de sözlerine ekledi.

Yeni modeller, bir soru sorulduğunda, insanların nasıl düşündüğünü ve birçok üretken yapay zeka kullanıcısının teknolojiyi nasıl kullanmayı öğrendiğini taklit eden “chain-of-thought” (düşünce zinciri) tekniklerini kullanıyor. Bu teknikler, istenen cevaba ulaşana kadar modeli sürekli olarak yeni yönlendirmelerle yönlendirmeyi ve düzeltmeyi içeriyor. Ancak o1 modellerinde, bu süreçlerin versiyonları ek yönlendirme olmadan perde arkasında gerçekleşiyor. Şirket, “Model hatalarını tanımayı ve düzeltmeyi öğreniyor. Zor adımları daha basit adımlara bölmeyi öğreniyor. Mevcut yaklaşım işe yaramadığında farklı bir yaklaşım denemeyi öğreniyor” açıklamasında bulundu.

Bu teknikler, modellerin çeşitli kıyaslamalardaki performansını artırırken, OpenAI, küçük bir alt kümede o1 modellerinin kullanıcıları kasıtlı olarak yanıltabileceğini de keşfetti. O1-preview tarafından desteklenen 100.000 ChatGPT konuşmasının bir testinde, şirket, modelin verdiği yaklaşık 800 cevabın yanlış olduğunu tespit etti. Bu yanlış cevapların yaklaşık üçte birinde, modelin düşünce zinciri, cevabın yanlış olduğunu bildiğini ancak yine de sağladığını gösterdi.

OpenAI CEO’su Sam Altman

Şirket, model sistem kartında, “Kasıtlı halüsinasyonlar (modelin gerçekte var olmayan veya yanlış bilgileri üretmesi), öncelikle o1-preview’a internet araması olmadan kolayca doğrulayamayacağı makalelere, web sitelerine, kitaplara veya benzer kaynaklara referanslar sağlaması istendiğinde meydana gelir ve bu da o1-preview’un bunun yerine makul örnekler uydurmasına neden olur” şeklinde yazdı.

Genel olarak, yeni modeller, OpenAI’ın önceki en gelişmiş modeli olan GPT-4o’ya göre, modellerin ne kadar kolay jailbreak edilebileceğini (modelin sınırlamalarını aşarak istenmeyen veya zararlı içerik üretmeye zorlanması), ne sıklıkta yanlış yanıtlar verdiğini ve yaş, cinsiyet ve ırk konusunda ne sıklıkta önyargı gösterdiğini ölçen çeşitli şirket güvenlik kıyaslamalarında daha iyi performans gösterdi. Ancak şirket, o1-preview’un, modelin cevabı bilmediğini söylemesi gereken belirsiz bir soru sorulduğunda, GPT-4o’ya göre önemli ölçüde daha yüksek bir olasılıkla cevap verdiğini tespit etti.

OpenAI, yeni modellerini eğitmek için kullanılan veriler hakkında fazla bilgi vermedi ve sadece herkese açık veriler ile ortaklıklar aracılığıyla elde edilen özel verilerin bir kombinasyonunu kullandıklarını belirtti.

Derleyen: Enis Yabar

En Son

Kuantum Hesaplama: Avrupa’nın Kazanabileceği Bir Teknoloji Yarışı mı?

Kuantum bilgisayarlar, son yıllarda teknoloji dünyasının en kritik yarış alanlarından biri haline gelirken, Avrupa da bu alanda güçlü bir bilimsel altyapıya sahip olmasına rağmen küresel rekabette yerini sağlamlaştırmaya çalışıyor.

Manosphere: Dating Kültürünü Şekillendiren Tartışmalı Terimler

Bir zamanlar yalnızca internetin karanlık köşelerinde ve manosphere içinde kullanılan “alpha”, “Chad” ve “body count” gibi terimler, bugün sosyal medyada ve flört içeriklerinde hızla yayılırken, aslında çok daha büyük bir ideolojik dönüşümün izlerini taşıyor.

Yeni Trump Mobile Tasarımı ortaya çıktı

Trump Mobile’ın uzun süredir merakla beklenen T1 akıllı telefonu, ilk kez gerçek görüntüleri ve güncellenmiş özellikleriyle ortaya çıktı ve cihazın önceki tanıtımlara göre oldukça farklı bir tasarım ve donanımla geliştirildiği görülüyor.

Bieber’ın Coachella Performansı Müzik Endüstrisinin Geldiği Noktayı Gösteriyor

Justin Bieber, Coachella 2026 sahnesine sadece “geri dönmek” için...

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Kuantum Hesaplama: Avrupa’nın Kazanabileceği Bir Teknoloji Yarışı mı?

Kuantum bilgisayarlar, son yıllarda teknoloji dünyasının en kritik yarış alanlarından biri haline gelirken, Avrupa da bu alanda güçlü bir bilimsel altyapıya sahip olmasına rağmen küresel rekabette yerini sağlamlaştırmaya çalışıyor.

Manosphere: Dating Kültürünü Şekillendiren Tartışmalı Terimler

Bir zamanlar yalnızca internetin karanlık köşelerinde ve manosphere içinde kullanılan “alpha”, “Chad” ve “body count” gibi terimler, bugün sosyal medyada ve flört içeriklerinde hızla yayılırken, aslında çok daha büyük bir ideolojik dönüşümün izlerini taşıyor.

Yeni Trump Mobile Tasarımı ortaya çıktı

Trump Mobile’ın uzun süredir merakla beklenen T1 akıllı telefonu, ilk kez gerçek görüntüleri ve güncellenmiş özellikleriyle ortaya çıktı ve cihazın önceki tanıtımlara göre oldukça farklı bir tasarım ve donanımla geliştirildiği görülüyor.