DeepMind, Veo’nun gelişmiş versiyonu olan Veo 2’yi tanıttı. Bu yeni nesil yapay zeka, etkileyici 4K (4096 x 2160 piksel) çözünürlükte iki dakikadan uzun videolar üretebiliyor. Bu özellik, OpenAI’ın Sora’sının ulaştığı çözünürlüğün dört katı ve video süresinin altı katından fazla. Bu teknik üstünlük, Veo 2’yi video oluşturma alanında iddialı bir konuma yerleştiriyor.
Pratik Uygulama ve Geliştirme Süreci
Her ne kadar teknik özellikler etkileyici olsa da, Veo 2’nin şu anki pratik uygulaması VideoFX platformunda 720p çözünürlük ve sekiz saniye ile sınırlı. (Sora ise 1080p çözünürlükte 20 saniyelik videolar üretebiliyor.) Ancak Google, VideoFX’e erişimi artırmayı hedefliyor ve Veo 2’yi Vertex AI geliştirici platformu aracılığıyla daha geniş kitlelere sunmayı planlıyor. DeepMind Ürün Başkan Yardımcısı Eli Collins, kullanıcı geri bildirimlerine göre geliştirmelerin devam edeceğini ve Veo 2’nin yeteneklerinin Google ekosistemine entegre edileceğini belirtiyor.
Veo 2’nin Özellikleri ve Gelişmiş Yetenekleri
Veo gibi Veo 2 de metin komutları veya metin ve referans görüntüler kullanarak videolar oluşturabiliyor. Ancak Veo 2, fizik ve kamera kontrollerini daha iyi anlıyor ve çok daha net görüntüler üretebiliyor. Özellikle hareketli sahnelerde görüntülerin keskinliği dikkat çekiyor. Geliştirilmiş kamera kontrolleri sayesinde sanal kamera daha hassas bir şekilde konumlandırılabiliyor ve nesneler farklı açılardan görüntülenebiliyor. Ayrıca, hareket, akışkan dinamiği ve ışık efektleri daha gerçekçi bir şekilde modelleniyor. Veo 2, farklı lensler, sinematik efektler ve detaylı insan ifadelerini de destekliyor.
Gerçekçilik ve Beklentiler
DeepMind tarafından paylaşılan örnekler, Veo 2’nin oldukça etkileyici sonuçlar ürettiğini gösteriyor. Sıvıların ve animasyonların gerçekçi bir şekilde modellenmesi dikkat çekici. Ancak, modelin mükemmel olmadığı ve bazı noktalarda geliştirilmesi gerektiği de belirtiliyor. Özellikle uzun süreli ve karmaşık komutlara tutarlılık ve karakter tutarlılığı konusunda iyileştirmeler hedefleniyor.
Güvenlik, Eğitim ve Etik
Veo 2, büyük miktarda video verisi üzerinde eğitildi. Eğitim verilerinin kaynağı tam olarak açıklanmasa da, YouTube’un olası bir kaynak olduğu tahmin ediliyor. DeepMind, içerik oluşturucularla işbirliği yapmaya ve geri bildirim toplamaya önem veriyor. Modelin güvenliği açısından, istem düzeyinde filtreler ve SynthID adlı filigran teknolojisi kullanılıyor. Telif hakkı ihlali iddialarına karşı ise belirli bir tazminat politikasının uygulanacağı belirtiliyor.
Imagen 3 de Geliştiriliyor
Veo 2’nin yanı sıra, Google DeepMind görüntü oluşturma modeli Imagen 3’ü de geliştiriyor. ImageFX kullanıcıları, daha parlak, daha iyi kompozisyonlu görüntüler ve fotoğraflar oluşturan Imagen 3’ün yeni sürümüne erişebiliyor. Model, komutları daha doğru bir şekilde takip ediyor ve daha zengin detaylar sunuyor.