Şehirde yeni bir kral var: Yapay zeka yazma girişimi HyperWrite’ın kurucu ortağı ve CEO’su Matt Shumer, bugün Meta’nın açık kaynaklı Llama 3.1-70B Instruct’ını temel alan, yeni bir hata düzeltme tekniğinden yararlanan ve üçüncü taraf kıyaslamalarında üstün performans gösteren yeni bir büyük dil modeli (LLM) olan Reflection 70B’yi tanıttı.
Shumer’in X sosyal ağındaki bir gönderide duyurduğu gibi, Reflection-70B artık “dünyanın en iyi açık kaynaklı yapay zeka modeli” olarak görünüyor.
Matt Shumer karşılaştırmalı performansını gösteren aşağıdaki grafiği yayınladı:
Reflection 70B, sonuçların kontaminasyondan arındırıldığından emin olmak için LMSys’in LLM Dekontaminatörü kullanılarak MMLU ve HumanEval dahil olmak üzere çeşitli karşılaştırmalarda titizlikle test edilmiş. Bu kıyaslamalar Reflection’ın Meta’nın Llama serisindeki modellerden sürekli olarak daha iyi performans gösterdiğini ve en iyi ticari modellerle başa baş rekabet ettiğini göstermekte.
Bunu bir “oyun alanı” web sitesinde demo olarak kendiniz deneyebilirsiniz, ancak Shumer’in X’te belirttiği gibi, açık kaynaklı yapay zeka modellerinin yeni kralının duyurulması demo sitesini trafikle doldurdu ve ekibi talebi karşılamak için yeterli GPU (grafik işlem birimleri, Nvidia ve diğerlerinin çoğu üretken yapay zeka modelini eğitmek ve çalıştırmak için kullanılan değerli çipler) bulmak için çabalıyor.
Reflection 70B nasıl diğerlerinden ayrılıyor?
Shumer, Reflection 70B’nin sadece üst düzey modellerle rekabet etmekle kalmadığını, aynı zamanda masaya özellikle hata tanımlama ve düzeltme gibi benzersiz yetenekler getirdiğini vurguladı.
Shumer, VentureBeat’e DM üzerinden şunları söyledi: “Bu fikir üzerinde aylardır düşünüyordum. LLM’ler halüsinasyon görüyorlar ama rotalarını düzeltemiyorlar. Bir LLM’ye kendi hatalarını nasıl fark edeceğini ve düzelteceğini öğretirseniz ne olur?”
Dolayısıyla adı “Reflection (Yansıma) – ürettiği metin üzerinde düşünebilen ve bunu kullanıcıya çıktı olarak sunmadan önce doğruluğunu değerlendirebilen bir model.
Modelin avantajı, kendi muhakemesindeki hataları tespit etmesine ve bir yanıtı sonuçlandırmadan önce bunları düzeltmesine olanak tanıyan yansıma ayarı adı verilen bir teknikte yatmakta.
Reflection 70B, akıl yürütme ve hata düzeltme için birkaç yeni özel belirteç sunarak kullanıcıların modelle daha yapılandırılmış bir şekilde etkileşime girmesini kolaylaştırıyor. Çıkarım sırasında model, bir hata tespit ettiğinde gerçek zamanlı düzeltmelere olanak tanıyan özel etiketler içinde muhakemesini çıktı olarak veriyor.
Oyun alanı demo sitesi, kullanıcının kullanması için Reflection 70B’ye “Strawberry” kelimesinde kaç tane “r” harfi örneği olduğunu ve hangi sayının daha büyük olduğunu, 9.11 mi yoksa 9.9 mu olduğunu soran önerilen istemler içeriyor; önde gelen tescilli olanlar da dahil olmak üzere birçok AI modeli tutarlı bir şekilde doğru yapamıyor. Testlerimiz yavaştı, ancak Reflection 70B nihayetinde 60+ saniye sonra doğru yanıtı verdi.
Bu da modeli özellikle yüksek doğruluk gerektiren görevler için kullanışlı hale getiriyor, çünkü muhakemeyi hassasiyeti artırmak için farklı adımlara ayırıyor. Model, Hugging Face adlı yapay zeka kod deposu üzerinden indirilebilir ve API erişimi GPU hizmet sağlayıcısı Hyperbolic Labs aracılığıyla bugün ilerleyen saatlerde sunulacak.
Daha da güçlü, daha büyük bir model yolda
Reflection 70B’nin piyasaya sürülmesi Reflection serisinin sadece başlangıcı. Shumer, daha da büyük bir model olan Reflection 405B’nin önümüzdeki hafta satışa sunulacağını duyurdu.
Ayrıca HyperWrite’ın Reflection 70B modelini birincil yapay zeka yazma asistanı ürününe entegre etmek için çalıştığını söyledi.
“Modeli HyperWrite’a entegre etmenin çeşitli yollarını araştırıyoruz – yakında bu konuda daha fazla bilgi paylaşacağım,” diye söz verdi.
Reflection 405B’nin bugün piyasada bulunan en iyi kapalı kaynak modellerinden bile daha iyi performans göstermesi bekleniyor. Shumer ayrıca HyperWrite’ın eğitim sürecini ve kıyaslamaları detaylandıran ve Reflection modellerine güç veren yenilikler hakkında bilgi veren bir rapor yayınlayacağını söyledi.
Reflection 70B’nin temel modeli Meta’nın Llama 3.1 70B Instruct’ı üzerine inşa edilmiş ve mevcut araçlar ve boru hatlarıyla uyumluluk sağlamak için stok Llama sohbet formatını kullanıyor.
Shumer, hızlı yapay zeka modeli eğitimi sağladığı için Glaive’e güveniyor
Reflection 70B’nin başarısına katkıda bulunan en önemli unsurlardan biri, kullanım durumuna özel veri kümeleri oluşturma konusunda uzmanlaşmış bir girişim olan Glaive tarafından üretilen sentetik veriler.
Glaive’in platformu, küçük, son derece odaklanmış dil modellerinin hızlı bir şekilde eğitilmesini sağlayarak yapay zeka araçlarına erişimin demokratikleştirilmesine yardımcı oluyor. Hollandalı mühendis Sahil Chaudhary tarafından kurulan Glaive, yapay zeka geliştirmedeki en büyük darboğazlardan birini çözmeye odaklanıyor: yüksek kaliteli, göreve özel verilerin mevcudiyeti.
Glaive’in yaklaşımı, belirli ihtiyaçlara göre uyarlanmış sentetik veri setleri oluşturarak şirketlerin modellere hızlı ve uygun maliyetli bir şekilde ince ayar yapmasına olanak sağlamak. Şirket, HumanEval gibi görevlerde birçok büyük açık kaynak alternatifinden daha iyi performans gösteren 3B parametreli bir model gibi daha küçük modellerle başarı göstermiş Spark Capital, bir yıldan uzun bir süre önce Glaive için 3,5 milyon dolarlık bir tohum turuna öncülük ederek Chaudhary’nin uzman modellerin herhangi bir görev için kolayca eğitilebileceği metalaştırılmış bir yapay zeka ekosistemi oluşturma vizyonunu destekledi.
Reflection ekibi, Glaive’in teknolojisinden yararlanarak Reflection 70B’yi eğitmek için hızla yüksek kaliteli sentetik veriler üretebildi. Shumer, haftalar yerine saatler içinde üretilen verilerle geliştirme sürecini hızlandırdıkları için Chaudhary ve Glaive AI platformuna teşekkür etti.
Shumer’in VentureBeat’e gönderdiği doğrudan mesaja göre, eğitim süreci toplamda üç hafta sürdü. “Modelin beş iterasyonunu üç hafta boyunca eğittik” diye yazdı. “Veri kümesi tamamen özeldir ve Glaive’in sentetik veri oluşturma sistemleri kullanılarak oluşturulmuştur.”
HyperWrite Long Island’ın nadir yapay zeka girişimlerinden biri
İlk bakışta Reflection 70B birdenbire ortaya çıkmış gibi görünüyor. Ancak Shumer yıllardır yapay zeka sektöründe yer alıyor.
Başlangıçta Otherside AI adını taşıyan şirketini 2020 yılında Jason Kuperberg ile birlikte kurdu. Başlangıçta Long Island’da New York City’nin doğusunda arabayla yaklaşık bir saatlik mesafede bir mezra olan Melville, New York’ta bulunuyordu.
Tüketicilerin madde işaretlerine dayalı e-postalar ve yanıtlar oluşturması için bir Chrome uzantısı olarak başlayan, ancak deneme taslakları hazırlamak, metni özetlemek ve hatta e-postaları düzenlemek gibi görevleri yerine getirmek için gelişen imza ürünü HyperWrite etrafında ilgi gördü. HyperWrite, Kasım 2023 itibariyle iki milyon kullanıcıya ulaştı ve kurucu ikiliye Forbes’un yıllık “30 Yaş Altı 30” listesinde bir yer kazandırarak Shumer ve Kuperberg’i ve büyüyen ekiplerini şirketin adını hit ürünlerine uyacak şekilde değiştirmeye teşvik etti.
HyperWrite’ın Mart 2023’te açıklanan son turunda, aralarında Madrona Venture Group’un da bulunduğu yatırımcılardan 2,8 milyon dolarlık bir destek sağlandı. Bu fon ile HyperWrite, web tarayıcılarını uçuş rezervasyonu yapmaktan LinkedIn’de iş adayları bulmaya kadar çeşitli görevleri yerine getirebilen sanal uşaklara dönüştürmek gibi yapay zeka odaklı yeni özellikler sundu.
Shumer, özellikle karmaşık otomasyon görevlerini keşfettikçe, doğruluk ve güvenliğin HyperWrite için en önemli öncelikler olmaya devam ettiğini belirtiyor. Platform, kullanıcı geri bildirimlerini izleyerek ve bunlara dayalı iyileştirmeler yaparak kişisel asistan aracını geliştirmeye devam ediyor. Reflection 70B’de yer alan yapılandırılmış akıl yürütme ve düşünmeye benzer bu temkinli yaklaşım, Shumer’in yapay zeka geliştirmede hassasiyet ve sorumluluğa olan bağlılığını gösteriyor.
HyperWrite ve Reflection AI model ailesi için sırada ne var?
Shumer’in ileriye dönük olarak Reflection serisi için daha da büyük planları var. Yakında piyasaya sürülecek olan Reflection 405B ile, şu anda küresel lider olan OpenAI’nin GPT-4o’su gibi tescilli veya kapalı kaynaklı LLM’lerin performansını bile önemli bir farkla aşacağına inanıyor.
Bu sadece Nvidia ve Apple gibi firmalardan önemli miktarda yeni özel yatırım toplamaya çalıştığı bildirilen OpenAI için değil, Anthropic ve hatta Microsoft gibi diğer kapalı kaynak model sağlayıcıları için de kötü bir haber.
Görünen o ki, hızla gelişen gen yapay zeka alanında güç dengesi bir kez daha değişti.
Şimdilik, Reflection 70B’nin piyasaya sürülmesi, geliştiricilere ve araştırmacılara tescilli modellerin yeteneklerine rakip olan güçlü bir araca erişim sağlayarak açık kaynaklı yapay zeka için önemli bir kilometre taşını işaret ediyor. YZ gelişmeye devam ettikçe, Reflection’ın akıl yürütme ve hata düzeltmeye yönelik benzersiz yaklaşımı, açık kaynaklı modellerin başarabilecekleri için yeni bir standart oluşturabilir.