- Google’ın yeni video oluşturma yapay zeka modeli Lumiere, Uzay-Zaman-U-Net veya STUNet adı verilen ve videoda nesnelerin nerede olduğunu (uzay) ve aynı anda nasıl hareket edip değiştiklerini (zaman) belirleyen yeni bir difüzyon modeli kullanıyor.
- Lumiere, STUNet çerçevesini kullanarak bu karedeki nesnelerin nereye hareket edeceğini tahmin etmeye başlıyor ve birbirinin içine akan daha fazla kare oluşturarak kesintisiz hareket görünümü yaratıyor. Lumiere ayrıca Stable Video Diffusion’daki 25 kareye kıyasla 80 kare üretiyor.
- Lumiere teknolojisi Runway, Stable Video Diffusion ya da Meta’s Emu gibi rakiplerin halihazırda işgal ettiği alanda yer edinmeye çalışıyor.
Google’ın yeni video oluşturma yapay zeka modeli Lumiere, Uzay-Zaman-U-Net veya STUNet adı verilen ve videoda nesnelerin nerede olduğunu (uzay) ve aynı anda nasıl hareket edip değiştiklerini (zaman) belirleyen yeni bir difüzyon modeli kullanıyor. Ars Technica’nın haberine göre bu yöntem, Lumiere’in videoyu daha küçük kareleri bir araya getirmek yerine tek bir işlemde oluşturmasını sağlıyor.
Lumiere, komut isteminden bir temel kare oluşturarak başlar. Ardından, STUNet çerçevesini kullanarak bu karedeki nesnelerin nereye hareket edeceğini tahmin etmeye başlıyor ve birbirinin içine akan daha fazla kare oluşturarak kesintisiz hareket görünümü yaratıyor. Lumiere ayrıca Stable Video Diffusion’daki 25 kareye kıyasla 80 kare üretiyor.
Lumiere teknolojisi Runway, Stable Video Diffusion ya da Meta’s Emu gibi rakiplerin halihazırda işgal ettiği alanda yer edinmeye çalışıyor. İlk kitlesel pazar metin-video platformlarından biri olan Runway, geçen yıl mart ayında Runway Gen-2’yi piyasaya sürdü ve daha gerçekçi görünen videolar sunmaya başladı. Runway videoları da hareketi tasvir etmekte zorlanıyor.
Diğer modeller, hareketin zaten gerçekleştiği oluşturulan anahtar karelerden videoları bir araya getirirken, STUNet, Lumiere’in oluşturulan içeriğin videoda belirli bir zamanda nerede olması gerektiğine bağlı olarak hareketin kendisine odaklanmasını sağlar.
Google, metinden videoya kategorisinde büyük bir oyuncu olmadı, ancak yavaş yavaş daha gelişmiş yapay zeka modelleri yayımladı ve daha çok modlu bir odağa yöneldi. Gemini büyük dil modeli sonunda Bard’a görüntü oluşturmayı getirecek. Lumiere henüz test için hazır değil, ancak Google’ın Runway ve Pika gibi genel olarak mevcut yapay zeka video oluşturucularla karşılaştırılabilir ve tartışmalı olarak biraz daha iyi bir yapay zeka video platformu geliştirme yeteneği sergiliyor. Hatırlatmak gerekirse, Google iki yıl önce yapay zeka videolarında bu noktadaydı.
Lumiere, metinden video oluşturmanın ötesinde, görüntüden video oluşturmaya, kullanıcıların belirli bir stilde videolar oluşturmasına olanak tanıyan stilize oluşturmaya, videonun yalnızca bir bölümünü canlandıran sinemagraflara ve renk veya deseni değiştirmek için videonun bir alanını maskelemek için inpainting’e de izin verecek.
Bununla birlikte, Google’ın Lumiere makalesinde “teknolojimizle sahte veya zararlı içerik oluşturmak için kötüye kullanım riski vardır ve güvenli ve adil bir kullanım sağlamak için önyargıları ve kötü niyetli kullanım durumlarını tespit etmek için araçlar geliştirmenin ve uygulamanın çok önemli olduğuna inanıyoruz” denildi. Makalenin yazarları bunun nasıl başarılabileceğini açıklamadı.
Derleyen: Alp Eren Gümüş