- Üretken video modellerinin tam olarak ne işe yarayacağı henüz bilinmese de, bu durum Runway, OpenAI ve Meta gibi şirketlerin bu modellere milyonlarca dolar yatırım yapmasını engellemiyor.
- Meta’nın en son geliştirdiği Movie Gen adlı model, adından da anlaşılacağı gibi metin istemlerini sese sahip nispeten gerçekçi videolara dönüştürüyor.
- Neyse ki henüz seslendirme özelliği yok ve Meta akıllıca davranarak bu modeli halka açık bir şekilde yayınlamıyor.
Movie Gen aslında bir temel model koleksiyonu (veya Meta’nın deyimiyle “oyuncu kadrosu”). Bunların en büyüğü metinden videoya dönüştürme işlemini gerçekleştiriyor. Meta, Movie Gen’in Runway’in Gen3, LumaLabs’ın en son modeli ve Kling1.5 gibi rakiplerini geride bıraktığını iddia ediyor. Ancak her zaman olduğu gibi, bu tür karşılaştırmalar daha çok Movie Gen’in kazandığını göstermekten ziyade aynı oyunu oynadıklarını kanıtlamaya yönelik. Teknik detaylar, Meta’nın tüm bileşenleri açıklayan yayınladığı makalede bulunabilir.
Movie Gen ile Videolara Otomatik Ses Ekleme
Movie Gen, videonun içeriğine uygun sesler üretebiliyor. Örneğin, araba hareketlerine karşılık gelen motor sesleri, arka planda bir şelalenin sesi veya gerektiğinde videonun ortasında bir gök gürültüsü sesi ekleyebiliyor. Hatta uygunsa müzik bile ekleyebiliyor.
Model, “lisanslı ve halka açık veri kümelerinin bir kombinasyonu” üzerinde eğitilmiş. Meta, bu veri kümelerini “tescilli/ticari olarak hassas” olarak nitelendiriyor ve daha fazla ayrıntı vermiyor. Tahmin edebileceğimiz gibi, bu veri kümeleri büyük olasılıkla Instagram ve Facebook videolarının yanı sıra bazı ortak içerikleri ve yeterince korunmayan diğer “halka açık” videoları içeriyor.
Meta’nın Hedefi: Pratik ve Kullanıcı Dostu Bir Video Üretim Aracı
Meta’nın burada açıkça hedeflediği şey, yalnızca bir veya iki aylığına “en gelişmiş” unvanını elde etmek değil, aynı zamanda basit ve doğal bir dil istemiyle sağlam bir nihai ürünün üretilebileceği pratik ve kapsamlı bir yaklaşım sunmak. Örneğin, “Beni fırtınalı bir havada parlak bir su aygırı pastası yapan bir pastacı olarak hayal et” gibi bir istemle video üretmek mümkün.
Bu tür video oluşturucular için bir sorun, genellikle düzenlemelerinin zor olmasıydı. Örneğin, birinin caddeyi geçtiği bir video isteyip sonra kişinin soldan sağa yerine sağdan sola yürümesini istediğinizde, aynı istemi ek talimatla tekrarladığınızda çekimin tamamen farklı görünme olasılığı yüksek. Meta, “arka planı yoğun bir kavşağa çevir” veya “kıyafetlerini kırmızı bir elbiseyle değiştir” gibi basit, metin tabanlı bir düzenleme yöntemi ekliyor ve model yalnızca bu değişikliği yapmaya çalışıyor.
Kamera hareketleri de genellikle anlaşılıyor ve video oluşturulurken “izleme çekimi” ve “sola kaydır” gibi ifadeler dikkate alınıyor. Bu, gerçek kamera kontrolüne kıyasla hala oldukça beceriksiz, ancak hiç yoktan iyi.
Modelin Sınırlamaları ve Geleceği
Modelin bazı ilginç sınırlamaları var. Videoyu 768 piksel genişliğinde üretiyor. Bu boyut, çoğu kişiye eski 1024×768 çözünürlüğünden tanıdık geliyor, ancak aynı zamanda 256’nın üç katı olması, diğer HD formatlarıyla uyumlu olmasını sağlıyor. Movie Gen sistemi bunu 1080p’ye yükseltiyor ve bu da 1080p çözünürlükte video ürettiği iddiasının kaynağı. Bu tam olarak doğru değil, ancak ölçeklendirme şaşırtıcı derecede etkili olduğu için görmezden gelebiliriz.
Garip bir şekilde, 16 kare hızında 16 saniyeye kadar video üretiyor. Ancak 24 FPS’de 10 saniyelik video da üretebiliyor.
Seslendirme özelliğinin olmamasının iki nedeni olabilir. İlk olarak, bu çok zor. Konuşma üretmek artık kolay, ancak bunu dudak hareketleriyle ve bu dudakları yüz hareketleriyle eşleştirmek çok daha karmaşık bir konu. Bunu daha sonraya bırakmalarını yadırgamıyorum, çünkü ilk dakikadan itibaren başarısızlık vakaları olabilirdi. Birisi “küçük bir bisiklete binip daireler çizen bir palyaçonun Gettysburg Konuşması’nı yapmasını sağla” diyebilirdi – bu da viral olmaya hazır bir kabus senaryosu olurdu.
İkinci neden muhtemelen politik: büyük bir seçimin bir ay öncesinde bir deepfake oluşturucu yayınlamak pek de iyi bir fikir değil. Kötü niyetli kişilerin kullanmaya çalışması durumunda, kendi açılarından gerçek bir çalışma gerektirecek şekilde yeteneklerini biraz kısıtlamak pratik bir önleyici adımdır. Elbette bu üretken modeli bir konuşma oluşturucu ve açık bir dudak senkronizasyon aracıyla birleştirmek mümkün, ancak bir adayın çılgınca iddialarda bulunmasını sağlayamazsınız.
Bir Meta temsilcisi konu hakkında, “Movie Gen şu anda tamamen bir yapay zeka araştırma konsepti ve bu erken aşamada bile, tüm üretken yapay zeka teknolojilerimizde olduğu gibi güvenlik en büyük önceliğimiz” dedi.
Llama büyük dil modellerinin aksine, Movie Gen halka açık olmayacak. Araştırma makalesini izleyerek tekniklerini bir şekilde çoğaltabilirsiniz, ancak test videolarını oluşturmak için hangi istemlerin kullanıldığının kaydı olan “temel değerlendirme istemi veri kümesi” dışında kod yayınlanmayacak.