OpenAI en büyük duyurusunu 12 günlük “shipmas” etkinliğinin son gününe sakladı.
Cuma günü şirket, yılın başlarında piyasaya sürdüğü o1 “akıl yürütme” modelinin halefi olan o3’ü tanıttı. o3, daha doğrusu o1’de olduğu gibi bir model ailesi. Belirli görevler için ince ayarlanmış daha küçük, damıtılmış bir model olan o3 ve o3-mini var.
OpenAI, o3’ün en azından belirli koşullarda AGI’ye yaklaştığı gibi dikkat çekici bir iddiada bulunuyor.
Neden yeni modelin adı o2 değil de o3? Bunun sorumlusu ticari markalar olabilir. The Information’a göre OpenAI, İngiliz telekom sağlayıcısı O2 ile olası bir çatışmayı önlemek için o2’yi atladı. CEO Sam Altman bu sabahki canlı yayın sırasında bunu bir şekilde doğruladı. Tuhaf bir dünyada yaşıyoruz, değil mi?
Ne o3 ne de o3-mini henüz yaygın olarak kullanılamıyor, ancak güvenlik araştırmacıları bugünden itibaren o3-mini için bir önizleme için kaydolabilirler. Bir o3 önizlemesi daha sonra gelecek; OpenAI ne zaman olacağını belirtmedi. Altman, planın o3-mini’yi Ocak ayının sonuna doğru piyasaya sürmek ve o3 ile takip etmek olduğunu söyledi.
Bu, son açıklamalarıyla biraz çelişiyor. Bu hafta verdiği bir röportajda Altman, OpenAI yeni muhakeme modellerini yayınlamadan önce, bu tür modellerin risklerini izleme ve azaltmaya rehberlik edecek federal bir test çerçevesini tercih edeceğini söyledi.
Ve riskler de var. YZ güvenlik testçileri, o1’in muhakeme yeteneklerinin, insan kullanıcıları geleneksel, “muhakeme yapmayan” modellerden – ya da bu konuda Meta, Anthropic ve Google’ın önde gelen YZ modellerinden – daha yüksek oranda aldatmaya çalıştığını tespit etti. O3’ün selefinden daha da yüksek bir oranda aldatmaya çalışması mümkündür. OpenAI’nin kırmızı ekip ortakları test sonuçlarını açıkladığında öğreneceğiz.
OpenAI, o3 gibi modelleri güvenlik ilkeleriyle uyumlu hale getirmek için “müzakereci hizalama” adlı yeni bir teknik kullandığını söylüyor. (o1 de aynı şekilde hizalanmıştı.) Şirket çalışmalarını yeni bir çalışmada detaylandırdı.
Muhakeme modelleri için adımlar atılıyor
Çoğu yapay zekanın aksine, o3 gibi muhakeme modelleri kendilerini etkin bir şekilde kontrol eder, bu da normalde modellere çelme takan bazı tuzaklardan kaçınmalarına yardımcı olur.
Bu doğruluk kontrol süreci bir miktar gecikmeye neden olur. o3; kendisinden önceki o1 gibi tipik bir muhakeme yapmayan modele kıyasla çözümlere ulaşması biraz daha uzun sürer. İyi tarafı nedir peki? Fizik, bilim ve matematik gibi alanlarda daha güvenilir olma eğilimindedir.
o3, OpenAI’nin “özel düşünce zinciri” olarak tanımladığı yolla yanıt vermeden önce “düşünmek” için pekiştirmeli öğrenme yoluyla eğitildi. Model, bir görev üzerinde mantık yürütebilir ve ileriyi planlayabilir, uzun bir süre boyunca bir çözüm bulmasına yardımcı olacak bir dizi eylem gerçekleştirebilir.
Uygulamada, bir istem verildiğinde, o3 yanıt vermeden önce duraklar, bir dizi ilgili istemi değerlendirir ve yol boyunca muhakemesini “açıklar”. Bir süre sonra model, en doğru yanıt olduğunu düşündüğü yanıtı özetler.
o3 ile o1 arasındaki yeni fark, muhakeme süresini “ayarlama” yeteneğidir. Modeller düşük, orta veya yüksek hesaplamaya (yani düşünme süresine) ayarlanabilir. Hesaplama ne kadar yüksekse, o3 bir görevde o kadar iyi performans gösterir.
Bununla birlikte, ellerinde ne kadar hesaplama olursa olsun, o3 gibi muhakeme modelleri kusursuz değildir. Muhakeme bileşeni hataları azaltabilirken, bunları ortadan kaldırmaz. o1 örneğin tic-tac-toe oyunlarında takılır.
Karşılaştırma Ölçütleri ve AGI
Bugüne kadarki en büyük sorulardan biri OpenAI’nin en yeni modellerinin AGI’ye yaklaştığını iddia edip edemeyeceğiydi.
“Yapay genel zeka “nın kısaltması olan AGI, genel olarak bir insanın yapabileceği her türlü görevi yerine getirebilen yapay zeka anlamına geliyor. OpenAI’nin kendi tanımı var: “Ekonomik açıdan en değerli işlerde insanlardan daha iyi performans gösteren yüksek otonom sistemler.”
AGI’ye ulaşmak cesur bir beyan olacaktır. Ve OpenAI için de sözleşmeye dayalı bir ağırlık taşıyor. Yakın ortağı ve yatırımcısı Microsoft ile yaptığı anlaşmanın şartlarına göre, OpenAI AGI’ye ulaştığında artık Microsoft’a en gelişmiş teknolojilerine (OpenAI’nin AGI tanımını karşılayanlar) erişim izni vermek zorunda değil.
Bir kıyaslamaya göre, OpenAI yavaş yavaş AGI’ye yaklaşıyor. Bir yapay zeka sisteminin eğitildiği verilerin dışında yeni becerileri verimli bir şekilde kazanıp kazanamayacağını değerlendirmek için tasarlanmış bir test olan ARC-AGI’da o3, yüksek işlem ayarında %87,5 puan elde etti. En kötü durumda (düşük işlem ayarında), model o1’in performansını üçe katladı.
ARC-AGI’nin ortak yaratıcısı François Chollet’e göre, yüksek hesaplama ayarı son derece pahalıydı. Yarışma başına binlerce dolar mertebesindeydi.
Chollet ayrıca o3’ün ARC-AGI’daki “çok kolay görevlerde” başarısız olduğuna dikkat çekerek, modelin insan zekasından “temel farklılıklar” sergilediğini belirtti. Daha önce değerlendirmenin sınırlamalarına dikkat çekmiş ve yapay zeka süper zekasının bir ölçüsü olarak kullanılmasına karşı uyarıda bulunmuştu.
Chollet açıklamasına şöyle devam etti: “İlk veri noktaları, yaklaşmakta olan (ARC-AGI’nın halefi) kıyaslamanın o3 için hala önemli bir zorluk teşkil edeceğini ve potansiyel olarak yüksek bilgi işlemde bile puanını %30’un altına düşüreceğini gösteriyor (akıllı bir insan eğitim almadan %95’in üzerinde puan alabilirken).” “Normal insanlar için kolay ancak yapay zeka için zor olan görevler yaratma egzersizi imkansız hale geldiğinde AGI’nin burada olduğunu anlayacaksınız.”
Bu arada OpenAI, ARC-AGI’nin arkasındaki vakıfla işbirliği yaparak ARC-AGI 2 adlı yeni nesil yapay zeka ölçütünü geliştireceklerini açıkladı.
Diğer testlerde o3 rakiplerini geride bırakıyor.
Model, programlama görevlerine odaklanan bir ölçüt olan SWE-Bench Verified’da o1’den yüzde 22,8 puan daha iyi performans gösteriyor ve kodlama becerilerinin bir başka ölçütü olan Codeforces derecelendirmesinde 2727’ye ulaşıyor. (2400 puan, bir mühendisi 99,2. yüzdelik dilime yerleştirir.) o3, 2024 American Invitational Mathematics Exam’da sadece bir soru kaçırarak %96,7 puan alır ve lisansüstü düzeyde biyoloji, fizik ve kimya sorularından oluşan GPQA Diamond’da %87,7’ye ulaşır. Son olarak o3, EpochAI’nin Frontier Math kriterinde yeni bir rekor kırarak problemlerin %25,2’sini çözdü; başka hiçbir model %2’yi geçemedi.
Bu iddialar elbette kesin değil. Bunlar OpenAI’nin iç değerlendirmelerinden. Modelin gelecekte dış müşterilerden ve kuruluşlardan gelen kıyaslamalara nasıl dayanacağını görmek için beklememiz gerekecek.
Yeni bir trend oldu
OpenAI’nin ilk muhakeme modeli serisinin piyasaya sürülmesinin ardından, Google da dahil olmak üzere rakip yapay zeka şirketlerinin muhakeme modellerinde bir patlama yaşandı. Kasım ayı başlarında, quant trader’lar tarafından finanse edilen bir yapay zeka araştırma firması olan DeepSeek, ilk muhakeme modeli olan DeepSeek-R1’in ön izlemesini başlattı. Aynı ay, Alibaba’nın Qwen ekibi, o1’in ilk “açık” rakibi olduğunu iddia ettiği (indirilebilmesi, ince ayar yapılabilmesi ve yerel olarak çalıştırılabilmesi anlamında) modeli tanıttı.
Muhakeme modeli kapılarını açan neydi? Öncelikle, üretici yapay zekayı iyileştirmek için yeni yaklaşımlar arayışı. TechCrunch’ın kısa süre önce bildirdiği gibi, modelleri büyütmek için kullanılan “kaba kuvvet” teknikleri artık eskisi kadar iyileştirme sağlamıyor.
Muhakeme modellerinin ileriye dönük en iyi yol olduğuna herkes ikna olmuş değil. Öncelikle, onları çalıştırmak için gereken büyük miktarda bilgi işlem gücü sayesinde pahalı olma eğilimindedirler. Ve şimdiye kadar kıyaslamalarda iyi performans göstermiş olsalar da muhakeme modellerinin bu ilerleme hızını koruyup koruyamayacağı net değil.
İlginç bir şekilde, o3’ün piyasaya sürülmesi OpenAI’nin en başarılı bilim insanlarından birinin ayrılmasıyla gerçekleşti. OpenAI’nin üretken yapay zeka modellerinin “GPT serisini” (yani GPT-3, GPT-4 vb.) başlatan akademik makalenin baş yazarı Alec Radford, bu hafta bağımsız araştırmalara devam etmek için ayrıldığını duyurdu.
Derleyen: Rüya Uzun