- Çinli araştırmacılar, OpenAI’nin o1 modelinden ilham alarak, görsel dil modellerinde daha etkili akıl yürütme süreçlerini sağlayan LLaVA-o1 modelini geçtiğimiz günlerde tanıttı.
- LLaVA-o1, dört aşamalı akıl yürütme yaklaşımıyla daha doğru ve mantıklı sonuçlar sunarak karmaşık görevlerde verimliliği artırmayı amaçlıyor.
OpenAI’nin o1 modeli, çıkarım sırasında hesaplama gücünü artırarak görsel dil modellerinin akıl yürütme yeteneklerini geliştiriyor. Çinli araştırmacılar, bu yaklaşımı açık kaynaklı görsel dil modellerine (VLM) uyarlayarak LLaVA-o1’i geliştirdi.
Erken dönemdeki açık kaynaklı VLM’ler, mantıksal akıl yürütme yerine doğrudan tahminler yapıyor, bu da hatalara ve yanıltıcı sonuçlara yol açabiliyordu. Araştırmacılar, bu modellerin akıl yürütme süreçlerini daha sistematik hale getirmeleri gerektiğini vurguluyor.
OpenAI’nin o1 modeli, çıkarım sırasında ölçeklendirme kullanarak bu sorunu çözüyor ve modelin daha sağlam sonuçlar üretebilmesi sağlıyor. LLaVA-o1, o1’den ilham alarak akıl yürütmeyi dört aşamaya ayırıyor: Özet, Açıklama, Akıl Yürütme ve Sonuç. Bu yapı, modelin daha doğru ve mantıklı sonuçlar üretmesini sağlıyor.
LLaVA-o1, karmaşık görevlerde daha iyi performans göstererek, açık kaynaklı VLM’lerdeki mantıksal hataları minimize ediyor ve verimli bir akıl yürütme süreci sunması bekleniyor.
Derleyen: Elanur Atalay