Müziği Görselleştirerek Besteleyen Bir Yapay Zekâ: Riffusion

Şimdilerde yapay zekâ ile üretilmeyen bir şey kaldı mı sorusu daha biz sormaya başlamadan eskidi. Dolayısıyla yapay zekânın müzik üretebildiği kesinleşmiş fakat yeni olmayan bir gerçek. Riffusion, sesi değil ses görüntülerini kullanarak tuhaf ve çekici müzik üreten inovatif bir yaklaşımla bunu yeni bir gerçekliğe taşıyor.

Yapay zekâ destekli uygulamaların özellikle görüntü işleme kısmı söz konusu olduğunda akla gelen difüzyon teknolojisini, bundan birkaç yıl kadar önce trend olmuş deepfaking uygulamalarından hatırlayabilirsiniz. Hatırlamadıysanız bile son zamanlarda sıkça kullandığınız Stable Diffusion ve OpenAI’in DALL-E 2’si gibi uygulamalardan biliyosunuz. Bu uygulamaların çoğu, üretken rakip ağlar veya kısaca GAN’lar adı verilen bir yapay zekâ teknolojisine dayanıyordu. Yani rastgele verilerden gerçekçi görüntüler üreten bir oluşturucu ile diğer taraftan gerçek görüntüler ile sonradan üretilmiş görüntüler arasında ayrım yapmaya çalışan bir ayırıcıdan meydana gelmişti. Bu model, aynı anda hem üretici hem de ayırıcı modelin eğitilmesindeki zorluklar yüzünden yeterince başarılı çalışmıyordu. Neyse ki fizik imdada yetişti.

Difüzyon, fizikte bir şeyin kahvede eriyen bir küp şeker gibi daha yüksek konsantrasyonlu bir bölgeden daha düşük konsantrasyonlu bir bölgeye hareket ettiği süreci tanımlıyor. Nasıl ki kahvede bulunan şeker granülleri başlangıçta sıvının üst kısmında yoğunlaşır ancak yavaş yavaş dağılır hale gelir, difüze etmek de bir anlamda bu küp şekerin kahve içinde çözülebilirliğini ifade eder.

Araştırmacılar, fizikteki difüzyondan esinlenerek geliştirilen görüntü işleme temelli yapay zekâ uygulamalarını 10 yıla yakın bir süredir kullanıyor. Üstelik  difüzyon işleminin tersine çevrilemeyeceğini belirten fizik yasasının aksine yıllardır kullanılan yapay zekâ modelleri, görüntüyü difüzyon işleminin tersine de çevirebiliyor. Bu teknoloji, GPT-3 ile de sıklıkla gündeme gelen şirket OpenAI‘in CLIP (Contrastive Language-Image Pre-Training) isimli bir yeniliği sayesinde daha da bilinir hale geldi.

OpenAI geride bıraktığımız yılda, metinden görüntüler oluşturan bir sistem olan DALL-E’yi tanıtmıştı. DALL-E ile birlikte CLIP yeniliğini de duyurmuş olan şirket, o zamandan beri hayatımıza giren Stable Diffusion gibi açık kaynaklı diğer alternatiflerin pratikte kullanılmasına ve çok daha farklı şekillerde geliştirilmesine öncülük etmiş oldu. Söz konusu difüzyondan ilham alarak eğitilen yapay zekâ modelleri, bazı istisnalar dışında fotogerçekçi sanattan eskizlere, çizimlere ve resimlere kadar neredeyse her sanatçının tarzında sanat üretme konusunda oldukça başarılılar. Günün sonunda modellerin yetenekleri, tartışmalı da olsa iş burada bitmiyor.

Araştırmacılar farklı ve yeni bir şekilde müzik bestelemek için difüzyon temelli yapay zekâ modellerini kullanmayı denedi ve yüzlerce saatlik mevcut şarkı üzerinde eğitim vererek müzik klipleri çıkarabilen Riffusion isimli bir model yayımladı.

Stable Diffusion’ın arkasındaki Londra merkezli girişim olan Stability AI’ın mali desteğine sahip bir kuruluş olan Harmonai geliştiricileri Seth Forsgren’in ve Hayk Martiros’un yapay zekâ modeli, kısaca sesin spektrogramları – görsel temsilleri – üzerinde akıllıca eğitilmiş bir difüzyon temelli proje olarak kullanıma sunulmuş durumda.

Uygulama geliştiricilerden Forsgren, TechCrunch’a verdiği demeçte proje ile ilgili şunları söyledi: “Hayk ve ben küçük bir grupta birlikte çalıyoruz ve müziği sevdiğimiz ve Stable Diffusion’ın sese dönüştürmek için yeterli doğrulukta bir spektrogram görüntüsü oluşturmasının mümkün olup olmayacağını bile bilmediğimiz için projeye başladık. Yol boyunca attığımız her adımda, neyin mümkün olduğundan giderek daha çok etkilendik ve bu fikir bizi bir sonrası için harekete geçiriyor. Buradan sonra gidebileceğimiz birçok yön var ve yol boyunca öğrenmeye devam etmekten heyecan duyuyoruz.”

Spektrogram nedir diye mi soruyorsunuz? Bunlar, zaman içinde farklı frekansların genliğini gösteren sesin birer görsel temsilleridir. Bu temsiller, görüntü işleme teknolojisi kullanılarak belirli bir zaman aralığındaki ses seviyesini bir dizi tepe ve vadiye benzer dalga formları halinde görmemize olanak tanır.

Riffusion, müziği görsel olarak yeniden keşfetmeye yönelik herhangi bir büyük plandan çok şimdilik Forgsen ve Martiros için “vay canına, şuna bak” misali bir hobi projesi gibi görünüyor fakat bu durum onu asla önemsiz kılmıyor.

Difüzyon temelli yapay zekâ projesini Riffusion.com’da canlı bir demo şeklinde test edebilirsiniz ancak klibinizin oluşturulması için biraz beklemeniz gerekebilir.

Derleyen: Muhammed Bayar

En Son

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Avatar evreni uzun süredir sinema ile özdeşleşmiş olsa da, yeni video oyunu deneyimi bu dünyayı izlemekten çıkarıp doğrudan yaşanabilir bir gerçekliğe dönüştürerek filmlerin rolünü bile sorgulatıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.

Yılın En Aptalca Hack’i Çok Gerçek Bir Sorunu Ortaya Çıkardı

Silikon Vadisi’nde yaya geçidi butonlarının hacklenmesiyle ortaya çıkan tuhaf olay, ilk bakışta basit bir şaka gibi görünse de aslında modern şehirlerin siber güvenlik konusunda ne kadar savunmasız olduğunu gözler önüne serdi.

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.
Muhammed Bayar
Muhammed Bayarhttp://dijitaliyidir.com
Yeni teknolojiler eski nesil için yıkıcı fakat yeni nesil onu yapıcı bir şekilde kullanarak dönüşümü başlatacak. Bu anlamda böyle bir dönemin tanığı olmak çok değerli. Bence dijital, insanı olduğundan daha değerli hissettirdiği için iyidir.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.