- Apple, talimatlara dayalı olarak görüntü düzenleyebilen “MGIE” adlı yeni bir açık kaynaklı yapay zeka modeli yayımladı.
- Model, Photoshop tarzı modifikasyon, global fotoğraf optimizasyonu ve yerel düzenleme gibi çeşitli düzenleme yönlerini ele alabiliyor.
- MGIE, talimat tabanlı görüntü düzenlemeyi geliştirmek için hem metin hem de görüntüleri işleyebilen güçlü yapay zeka modeli MLLM’leri kullanımına dayanıyor.
Apple, talimatlara dayalı olarak görüntü düzenleyebilen “MGIE” adlı yeni bir açık kaynaklı yapay zeka modeli yayımladı. Açılımı “MLLM-Guided Image Editing” olan MGIE, kullanıcı komutlarını yorumlamak ve piksel düzeyinde manipülasyonlar gerçekleştirmek için multimodal büyük dil modellerinden (MLLM’ler) yararlanıyor. Model, Photoshop tarzı modifikasyon, global fotoğraf optimizasyonu ve yerel düzenleme gibi çeşitli düzenleme yönlerini ele alabiliyor. MGIE, Apple ile Santa Barbara’daki California Üniversitesinden araştırmacıların işbirliğinin bir sonucu. Model, yapay zeka araştırmaları konusunda en önemli merkezlerden biri olan Uluslararası Öğrenme Temsilleri Konferansı (ICLR) 2024’te kabul edilen bir makalede sunuldu. Makale, MGIE’nin otomatik ölçümleri ve değerlendirme iyileştirmelerinde etkinliğini gösterirken rekabetçi çıkarımlarla verimliliğini de koruyor.
MGIE, talimat tabanlı görüntü düzenlemeyi geliştirmek için hem metin hem de görüntüleri işleyebilen güçlü yapay zeka modeli MLLM’leri kullanımına dayanıyor. MLLM’ler, çapraz model anlama ve görsel farkındalıklı yanıt oluşturma konusunda dikkate değer yetenekler gösterdi ancak görüntü düzenleme görevlerinde yaygın olarak uygulanmadı.
MGIE, MLLM’leri görüntü düzenleme sürecine iki şekilde entegre ediyor: İlk olarak kullanıcı girdisinden anlamlı talimatlar türetmek için MLLM’leri kullanıyor. Bu talimatlar kısa ve net olmakla birlikte düzenleme süreci için açık bir rehberlik sağlıyor. Örneğin, “gökyüzünü daha mavi yap” girdisi verildiğinde, MGIE görselde “gökyüzü doygunluğunu %20 artır” talimatını üretebiliyor. İkinci olarak istenen düzenlemenin gizli bir temsili olan görsel hayal gücünü oluşturmak için MLLM’leri kullanılıyor. Bu temsil, düzenlemenin özünü yakalıyor ve piksel düzeyinde manipülasyona rehberlik etmek için kullanılabiliyor. MGIE, talimat türetme, görsel hayal gücü ve görüntü düzenleme modüllerini birlikte optimize eden yeni bir uçtan uca eğitim şeması kullanıyor.
MGIE, basit renk ayarlamalarından karmaşık nesne manipülasyonlarına kadar çok çeşitli düzenleme senaryolarının üstesinden gelebiliyor. Model, kullanıcının tercihine bağlı olarak global ve yerel düzenlemeler de gerçekleştirebiliyor.
MGIE’nin bazı özellikleri:
Etkileyici talimat tabanlı düzenleme: MGIE, düzenleme sürecini etkili bir şekilde yönlendiren kısa ve net talimatlar üretebiliyor. Bu sadece düzenlemelerin kalitesini artırmakla kalmıyor aynı zamanda genel kullanıcı deneyimini de geliştiriyor.
Photoshop benzeri değişiklikler: MGIE kırpma, yeniden boyutlandırma, döndürme, çevirme ve filtre ekleme gibi yaygın Photoshop tarzı düzenlemeleri gerçekleştirebiliyor. Model ayrıca arka planı değiştirme, nesne ekleme veya kaldırma ve görüntüleri karıştırma gibi daha gelişmiş düzenlemeler de uygulayabiliyor.
Global fotoğraf optimizasyonu: MGIE, parlaklık, kontrast, keskinlik ve renk dengesi gibi bir fotoğrafın genel kalitesini optimize edebiliyor. Model ayrıca eskiz, boyama ve karikatürize etme gibi sanatsal efektler de uygulayabiliyor.
Yerel düzenleme: MGIE bir görüntüdeki yüzler, gözler, saçlar, giysiler ve aksesuarlar gibi belirli bölgeleri veya nesneleri düzenleyebiliyor. Model ayrıca bu bölgelerin veya nesnelerin şekil, boyut, renk, doku ve stil gibi niteliklerini de değiştirebiliyor.
MGIE, şu anda kullanıcıların kodları, verileri ve önceden eğitilmiş modelleri bulabileceği GitHub’da açık kaynaklı bir proje olarak mevcut. Proje ayrıca MGIE’nin çeşitli düzenleme görevleri için nasıl kullanılacağını gösteren bir demo not defteri özelliği de sunuyor. Kullanıcılar ayrıca makine öğrenimi (ML) projeleri üzerinde paylaşım ve işbirliği platformu olan Hugging Face Spaces’te barındırılan bir web demosu aracılığıyla MGIE’yi çevrimiçi olarak deneyebiliyor.
MGIE kullanımı kolay ve özelleştirme seçenekleri esnek olacak şekilde tasarlandı. MGIE,kullanıcılar görüntüleri düzenlemek için doğal dil talimatları sağlayabilir ve MGIE türetilen talimatlarla birlikte düzenlenmiş görüntüleri oluşturabiliyor. Ayrıca kullanıcılar uygulamadaki düzenlemeleri iyileştirmek veya farklı düzenleme seçeneklerini talep etmek için MGIE’ye geri bildirim sağlayabiliyor. MGIE, görüntü düzenleme işlevi gerektiren diğer uygulamalar veya platformlarla da entegre edilebiliyor.
MGIE, hem yapay zeka hem de insan yaratıcılığı için zorlu ve önemli bir görev olan talimat tabanlı görüntü düzenleme alanında bir atılım. MGIE, görüntü düzenlemeyi geliştirmek için MLLM’leri kullanma potansiyelini göstermekte ve modlar arası etkileşim ve iletişim için yeni olanaklar sunuyor. MGIE, kullanıcıların sosyal medya, e-ticaret, eğitim, eğlence ve sanat gibi kişisel veya profesyonel amaçlar için görüntüler oluşturmasına, değiştirmesine ve optimize etmesine yardımcı olabilmekle birlikte MGIE, kullanıcıların fikirlerini ve duygularını görüntüler aracılığıyla ifade etmelerini sağlayabilir ve yaratıcılıklarını keşfetmeleri için onlara ilham kaynağı olabilir.
Apple için MGIE, şirketin yapay zeka araştırma ve geliştirme alanındaki artan becerisini de vurgulayan bir girişim. Tüketici teknolojisi devi, son yıllarda makine öğrenimi yeteneklerini hızla genişletti ve MGIE, yapay zekanın günlük yaratıcı görevlerini nasıl geliştirebileceğinin belki de en etkileyici göstergesi oldu. MGIE büyük bir atılımı temsil etse de uzmanlar çok modlu yapay zeka sistemlerini geliştirmek için daha yapılacak çok iş olduğunu söylüyor. Ancak bu alandaki ilerlemeler hızla artıyor. MGIE’nin piyasaya sürülmesinin yarattığı heyecan bu yardımcı yapay zeka uygulamasını yakında vazgeçilmez bir yardımcı haline gelebilir.
Derleyen: Burçin Bağatur