Müziği Görselleştirerek Besteleyen Bir Yapay Zekâ: Riffusion

Destek Olun: Dijitaliyidir'de yayımlanan reklamları engellemek için AdBlocker kullanmazsanız bize destek olmuş olursunuz. Ayrıca ekibimize destek olmak isterseniz Google aracılığı ile destek olabilirsiniz. Şimdiden teşekkürler.
Muhammed Bayar
5 dk okuma süresi

Şimdilerde yapay zekâ ile üretilmeyen bir şey kaldı mı sorusu daha biz sormaya başlamadan eskidi. Dolayısıyla yapay zekânın müzik üretebildiği kesinleşmiş fakat yeni olmayan bir gerçek. Riffusion, sesi değil ses görüntülerini kullanarak tuhaf ve çekici müzik üreten inovatif bir yaklaşımla bunu yeni bir gerçekliğe taşıyor.

Yapay zekâ destekli uygulamaların özellikle görüntü işleme kısmı söz konusu olduğunda akla gelen difüzyon teknolojisini, bundan birkaç yıl kadar önce trend olmuş deepfaking uygulamalarından hatırlayabilirsiniz. Hatırlamadıysanız bile son zamanlarda sıkça kullandığınız Stable Diffusion ve OpenAI’in DALL-E 2’si gibi uygulamalardan biliyosunuz. Bu uygulamaların çoğu, üretken rakip ağlar veya kısaca GAN’lar adı verilen bir yapay zekâ teknolojisine dayanıyordu. Yani rastgele verilerden gerçekçi görüntüler üreten bir oluşturucu ile diğer taraftan gerçek görüntüler ile sonradan üretilmiş görüntüler arasında ayrım yapmaya çalışan bir ayırıcıdan meydana gelmişti. Bu model, aynı anda hem üretici hem de ayırıcı modelin eğitilmesindeki zorluklar yüzünden yeterince başarılı çalışmıyordu. Neyse ki fizik imdada yetişti.

Difüzyon, fizikte bir şeyin kahvede eriyen bir küp şeker gibi daha yüksek konsantrasyonlu bir bölgeden daha düşük konsantrasyonlu bir bölgeye hareket ettiği süreci tanımlıyor. Nasıl ki kahvede bulunan şeker granülleri başlangıçta sıvının üst kısmında yoğunlaşır ancak yavaş yavaş dağılır hale gelir, difüze etmek de bir anlamda bu küp şekerin kahve içinde çözülebilirliğini ifade eder.

Araştırmacılar, fizikteki difüzyondan esinlenerek geliştirilen görüntü işleme temelli yapay zekâ uygulamalarını 10 yıla yakın bir süredir kullanıyor. Üstelik  difüzyon işleminin tersine çevrilemeyeceğini belirten fizik yasasının aksine yıllardır kullanılan yapay zekâ modelleri, görüntüyü difüzyon işleminin tersine de çevirebiliyor. Bu teknoloji, GPT-3 ile de sıklıkla gündeme gelen şirket OpenAI‘in CLIP (Contrastive Language-Image Pre-Training) isimli bir yeniliği sayesinde daha da bilinir hale geldi.

OpenAI geride bıraktığımız yılda, metinden görüntüler oluşturan bir sistem olan DALL-E’yi tanıtmıştı. DALL-E ile birlikte CLIP yeniliğini de duyurmuş olan şirket, o zamandan beri hayatımıza giren Stable Diffusion gibi açık kaynaklı diğer alternatiflerin pratikte kullanılmasına ve çok daha farklı şekillerde geliştirilmesine öncülük etmiş oldu. Söz konusu difüzyondan ilham alarak eğitilen yapay zekâ modelleri, bazı istisnalar dışında fotogerçekçi sanattan eskizlere, çizimlere ve resimlere kadar neredeyse her sanatçının tarzında sanat üretme konusunda oldukça başarılılar. Günün sonunda modellerin yetenekleri, tartışmalı da olsa iş burada bitmiyor.

Araştırmacılar farklı ve yeni bir şekilde müzik bestelemek için difüzyon temelli yapay zekâ modellerini kullanmayı denedi ve yüzlerce saatlik mevcut şarkı üzerinde eğitim vererek müzik klipleri çıkarabilen Riffusion isimli bir model yayımladı.

Stable Diffusion’ın arkasındaki Londra merkezli girişim olan Stability AI’ın mali desteğine sahip bir kuruluş olan Harmonai geliştiricileri Seth Forsgren’in ve Hayk Martiros’un yapay zekâ modeli, kısaca sesin spektrogramları – görsel temsilleri – üzerinde akıllıca eğitilmiş bir difüzyon temelli proje olarak kullanıma sunulmuş durumda.

Uygulama geliştiricilerden Forsgren, TechCrunch’a verdiği demeçte proje ile ilgili şunları söyledi: “Hayk ve ben küçük bir grupta birlikte çalıyoruz ve müziği sevdiğimiz ve Stable Diffusion’ın sese dönüştürmek için yeterli doğrulukta bir spektrogram görüntüsü oluşturmasının mümkün olup olmayacağını bile bilmediğimiz için projeye başladık. Yol boyunca attığımız her adımda, neyin mümkün olduğundan giderek daha çok etkilendik ve bu fikir bizi bir sonrası için harekete geçiriyor. Buradan sonra gidebileceğimiz birçok yön var ve yol boyunca öğrenmeye devam etmekten heyecan duyuyoruz.”

Spektrogram nedir diye mi soruyorsunuz? Bunlar, zaman içinde farklı frekansların genliğini gösteren sesin birer görsel temsilleridir. Bu temsiller, görüntü işleme teknolojisi kullanılarak belirli bir zaman aralığındaki ses seviyesini bir dizi tepe ve vadiye benzer dalga formları halinde görmemize olanak tanır.

Riffusion, müziği görsel olarak yeniden keşfetmeye yönelik herhangi bir büyük plandan çok şimdilik Forgsen ve Martiros için “vay canına, şuna bak” misali bir hobi projesi gibi görünüyor fakat bu durum onu asla önemsiz kılmıyor.

Difüzyon temelli yapay zekâ projesini Riffusion.com’da canlı bir demo şeklinde test edebilirsiniz ancak klibinizin oluşturulması için biraz beklemeniz gerekebilir.

Derleyen: Muhammed Bayar

Loading

Bu içeriği paylaş
Follow:
Yeni teknolojiler eski nesil için yıkıcı fakat yeni nesil onu yapıcı bir şekilde kullanarak dönüşümü başlatacak. Bu anlamda böyle bir dönemin tanığı olmak çok değerli. Bence dijital, insanı olduğundan daha değerli hissettirdiği için iyidir.
Yorum bırak, puan ver