- Sony CSL’deki araÅŸtırmacılar, müzisyenlere, müzik yapımcılarına ve diÄŸer müzik meraklılarına yaratıcı çalışmalarında yardımcı olmak için tasarlanmış çeÅŸitli yapay zeka destekli çözümler üzerinde çalışıyor.
- arXiv ön baskı sunucusunda yayınlanan bir makalede, herhangi bir müzik için yüksek kaliteli enstrümantal eÅŸlik üretebilen, gelecek vaat eden bir hesaplama modeli olan Diff-A-Riff’i tanıtıldı.
Son yıllarda birçok mühendis, sanatçıların çalışmalarını destekleyebilecek, farklı içerik türlerinin üretimini hızlandıracak veya geliştirecek yapay zeka (AI) tabanlı araçlar geliştirmeye başladı. Bunlar arasında müzik parçaları oluşturabilen ve müzik prodüksiyonunun bazı yönlerini kolaylaştırabilen hesaplama modelleri de yer alıyor.
Sony CSL Paris’in müzik ekibi Tech Xplore’a verdiÄŸi demeçte, “Son makalemiz, bas eÅŸlikleri oluÅŸturma konusundaki önceki araÅŸtırmamızı temel alıyor” dedi. “Daha önceki çalışmamız mevcut parçaları tamamlamak için bas hatları oluÅŸturmaya odaklanırken, Diff-A-Riff bu konsepti herhangi bir enstrüman türünde tek enstrüman eÅŸlikleri oluÅŸturacak ÅŸekilde geniÅŸletiyor.”
“Bu evrim, genellikle ek enstrümanlar ekleyerek mevcut kompozisyonlarını geliÅŸtirmek için araçlar arayan müzik yapımcılarının ve sanatçıların pratik ihtiyaçlarından ve enstrüman türleri / tınıları konusunda esnek olma isteklerinden ilham aldı.”
Sony CSL Paris’teki müzik ekibinin son çalışmasının temel amacı, her seferinde tek bir enstrümana odaklanarak belirli bir müzikal baÄŸlamla sorunsuz bir ÅŸekilde bütünleÅŸen yüksek kaliteli enstrümantal eÅŸlikler üretebilen çok yönlü bir yapay zeka sistemi oluÅŸturmaktı. GeliÅŸtirdikleri araç, iki farklı ve güçlü derin öğrenme tekniÄŸine dayanıyor: gizli difüzyon modelleri ve tutarlılık oto kodlayıcıları.
Diff-A-Riff, enstrümantal eÅŸlik üretimi için diÄŸer araçlara göre çok sayıda avantaja sahip. Bunlardan ilki, kullanıcıların hem ses hem de metin istemlerini koÅŸullandırmasına olanak tanıyan ve eÅŸliklerin oluÅŸturulmasına rehberlik etmede daha fazla esneklik sunan çok yönlü kontrolü. Buna ek olarak, Diff-A-Riff 48kHz’lik sahte stereo ses ile yüksek kaliteli çıktılar üretiyor.
Ekip, “Diff-A-Riff ayrıca 64x sıkıştırma oranı kullandığımız için yaratım süresini ve bellek kullanımını önceki sistemlere kıyasla önemli ölçüde azaltıyor” dedi. “Herhangi bir müzikal baÄŸlam için eÅŸlik üretebildiÄŸini gördük, bu da onu müzik yapımcıları ve sanatçılar için deÄŸerli bir araç haline getiriyor.
“Ayrıca, enstrüman referansları ve metin istemleri arasında enterpolasyon, stereo geniÅŸliÄŸinin tanımlanması ve döngüler için kesintisiz geçiÅŸler oluÅŸturma imkanı gibi ek kontrollere sahip.”
Sony CSL müzik ekibi, modellerini bir dizi testle değerlendirdi. Model, insan dinleyicilerin insan müzisyenler tarafından çalınan kayıtlı eşliklerden ayırt edemediği çeşitli müzik parçaları için yüksek kaliteli enstrümantal eşlikler ürettiği için bulgular oldukça umut verici.
Bir Dakikalık Ses İçin Üç Saniyelik Üretim Hızı
“Diff-A-Riff, gerçek dünya senaryolarında müzik prodüksiyonuna, yaratıcı iÅŸ birliÄŸine ve ses tasarımına uygulanabilir.”. “Bir dakikalık ses için üç saniyelik üretim hızı benzeri görülmemiÅŸ bir hız ve bu tutarlılık otomatik kodlayıcının yüksek sıkıştırma oranıyla elde ediliyor” açıklaması yapıldı.Â
Sony CSL’de geliÅŸtirilen enstrümantal eÅŸlik oluÅŸturma aracı, yakında dünya çapındaki müzik yapımcıları tarafından kullanılabilir ve mevcut bestelerini tamamlayan enstrümantal parçalar oluÅŸturmalarına olanak tanıyabilir. Diff-A-Riff ayrıca sanatçılar tarafından yeni müzikal fikirleri kolayca keÅŸfetmek için veya ses tasarımcıları tarafından projeleri için farklı tınıları veya çalma stillerini hızla test etmek için kullanılabilir.
Ekip, “Gelecekteki araÅŸtırma planlarımız arasında kontrol mekanizmalarını geliÅŸtirerek Diff-A-Riff’in yeteneklerini arttırmak ve modeli müzik üretim sürecinin çeÅŸitli aÅŸamalarına entegre etmenin yeni yollarını keÅŸfetmek yer alıyor” diye ekledi.
“Modeli amatörler ve profesyoneller de dahil olmak üzere sanatçılar için daha eriÅŸilebilir ve kullanışlı hale getirmek için daha da sezgisel girdiler saÄŸlamayı hedefliyoruz. Ayrıca, modellerimizi daha da iyileÅŸtirmek ve doÄŸrulamak için müzisyenler ve bestecilerle iÅŸbirliÄŸi yaparak müzik endüstrisindeki kullanıcıların pratik ihtiyaçlarını karşılamalarını saÄŸlamayı planlıyoruz.”
Derleyen: Enis Yabar