OpenAI’ın senenin sonuna damga vuran ürünü ChatGPT’nin ilk açık kaynak eş değeri piyasada adını duyurdu.
Meta’nın Make-A-Video’su da dahil olmak üzere kapalı kaynaklı yapay zekâ sistemlerinin geliştiricisi Philip Wang, ChatGPT’ye benzer şekilde çalışan bir metin oluşturma modeli olan PaLM + RLHF’i yayımladı. Sistem, Google’ın büyük bir dil modeli olan PaLM ile Reinforcement Learning with Human Feedback (RLHF) adı verilen bir tekniğin birleştirilerek e-posta taslağı hazırlamak ve bilgisayar kodu önermek de dahil olmak üzere ChatGPT’nin yapabildiği hemen her görevi yerine getirebilen yeni bir sistem üretilmesiyle oluşuyor.
PaLM + RLHF, ChatGPT’den farklı olarak gerçekten çalışması için gerekli olan web’deki örnek veriler üzerinde eğitilmedi. Bu yüzden PaLM + RLHF’i indirmek bizlere ChatGPT’deki gibi mucizevi bir deneyim sunmayacak. Bunun mümkün olabilmesi için modelin öğrenebileceği gigabaytlarca metnin derlenmesi ve eğitim iş yükünü kaldırabilecek kadar güçlü bir donanım bulunması gerek.
ChatGPT gibi PaLM + RLHF de esasen kelimeleri tahmin etmek için istatistiksel bir araç. Eğitim verilerinden (Reddit’teki gönderiler, makaleler ve e-kitaplar) çok sayıda örnekle beslendiğinde PaLM + RLHF, çevredeki metnin anlamsal bağlamı gibi kalıplara dayalı olarak kelimelerin ortaya çıkma olasılığını öğrenebiliyor.
ChatGPT ve PaLM + RLHF, dil modellerini kullanıcıların gerçekleştirmelerini istedikleri şeylerle daha iyi hizalamayı amaçlayan bir teknik olan Reinforcement Learning with Human Feedback noktasında buluşuyor. RLHF, bir dil modelinin eğitilmesini ve insan gönüllülerin modelin söylemesini bekledikleri şeylerle eşleştirilmiş istemleri içeren bir veri kümesi üzerinde ince ayar yapılmasını içeriyor:
“Makine öğrenimini altı yaşındaki bir çocuğa açıkla” istemiyle “Makine öğrenimi bir yapay zekâ biçimidir…” verisi gibi.
Daha sonra istemler, çeşitli yanıtlar üreten ince ayarlı modelle besleniyor ve gönüllüler tüm yanıtları en iyiden en kötüye doğru sıralıyor. Son olarak sıralamalar, orijinal modelin yanıtlarını alan ve bunları tercih sırasına göre sıralayarak belirli bir soruya en iyi yanıtları filtreleyen bir “ödül modelini” eğitmek için kullanılıyor.
Eğitimin kendisi gibi verilerini toplamak da pahalı bir süreç. PaLM 540 milyar parametre büyüklüğünde ve bu “parametreler” dil modelinin eğitim verilerinden öğrenilen kısımlarını ifade ediyor. 2020 yılında yapılan bir çalışma, yalnızca 1,5 milyar parametreye sahip bir metin oluşturma modeli geliştirmenin maliyetini 1,6 milyon dolar olarak belirledi. 176 milyar parametreye sahip açık kaynak modeli Bloom’u eğitmek 384 Nvidia A100 GPU kullanarak üç ay sürdü ve tek bir A100 binlerce dolara mal oluyor.
PaLM + RLHF’in büyüklüğünde eğitilmiş bir modeli çalıştırmak da kilit bir nokta. Bloom, yaklaşık sekiz A100 GPU’ya sahip özel bir bilgisayar gerektiriyor. Bulut alternatiflerinin fiyatı da kendisi gibi tuzlu. OpenAI’ın metin üreten GPT-3’ünü tek bir Amazon Web Services örneğinde çalıştırmanın maliyeti yıllık yaklaşık 87.000 dolar.
Bir yapay zekâ araştırmacısı olan Sebastian Raschka, PaLM + RLHF ile ilgili bir LinkedIn gönderisinde, “Birisi size bu modeli eğitmeniz için 500 GPU sağlasa bile yine de altyapıyla uğraşmanız ve bunu kaldırabilecek bir yazılım çerçevesine sahip olmanız gerekir. Elbette bu mümkün, ancak şu anda büyük bir çaba gerektiriyor.” ifadelerini kullanarak işin finansal kısımla bitmeyeceğini belirtti.
Veriler ve piyasanın mevcut durumu, PaLM + RLHF’in bugün ChatGPT’nin yerini almayacağını gösteriyor. Tabii iyi bir finansör ya da girişim tüm bu eğitim sürecini kolaylaştırmayı düşünürse dengeler değişebilir.
Derleyen: Hatice Bulut