- Sony CSL’deki araştırmacılar, müzisyenlere, müzik yapımcılarına ve diğer müzik meraklılarına yaratıcı çalışmalarında yardımcı olmak için tasarlanmış çeşitli yapay zeka destekli çözümler üzerinde çalışıyor.
- arXiv ön baskı sunucusunda yayınlanan bir makalede, herhangi bir müzik için yüksek kaliteli enstrümantal eşlik üretebilen, gelecek vaat eden bir hesaplama modeli olan Diff-A-Riff’i tanıtıldı.
Son yıllarda birçok mühendis, sanatçıların çalışmalarını destekleyebilecek, farklı içerik türlerinin üretimini hızlandıracak veya geliştirecek yapay zeka (AI) tabanlı araçlar geliştirmeye başladı. Bunlar arasında müzik parçaları oluşturabilen ve müzik prodüksiyonunun bazı yönlerini kolaylaştırabilen hesaplama modelleri de yer alıyor.
Sony CSL Paris’in müzik ekibi Tech Xplore’a verdiği demeçte, “Son makalemiz, bas eşlikleri oluşturma konusundaki önceki araştırmamızı temel alıyor” dedi. “Daha önceki çalışmamız mevcut parçaları tamamlamak için bas hatları oluşturmaya odaklanırken, Diff-A-Riff bu konsepti herhangi bir enstrüman türünde tek enstrüman eşlikleri oluşturacak şekilde genişletiyor.”
“Bu evrim, genellikle ek enstrümanlar ekleyerek mevcut kompozisyonlarını geliştirmek için araçlar arayan müzik yapımcılarının ve sanatçıların pratik ihtiyaçlarından ve enstrüman türleri / tınıları konusunda esnek olma isteklerinden ilham aldı.”
Sony CSL Paris’teki müzik ekibinin son çalışmasının temel amacı, her seferinde tek bir enstrümana odaklanarak belirli bir müzikal bağlamla sorunsuz bir şekilde bütünleşen yüksek kaliteli enstrümantal eşlikler üretebilen çok yönlü bir yapay zeka sistemi oluşturmaktı. Geliştirdikleri araç, iki farklı ve güçlü derin öğrenme tekniğine dayanıyor: gizli difüzyon modelleri ve tutarlılık oto kodlayıcıları.
Diff-A-Riff, enstrümantal eşlik üretimi için diğer araçlara göre çok sayıda avantaja sahip. Bunlardan ilki, kullanıcıların hem ses hem de metin istemlerini koşullandırmasına olanak tanıyan ve eşliklerin oluşturulmasına rehberlik etmede daha fazla esneklik sunan çok yönlü kontrolü. Buna ek olarak, Diff-A-Riff 48kHz’lik sahte stereo ses ile yüksek kaliteli çıktılar üretiyor.
Ekip, “Diff-A-Riff ayrıca 64x sıkıştırma oranı kullandığımız için yaratım süresini ve bellek kullanımını önceki sistemlere kıyasla önemli ölçüde azaltıyor” dedi. “Herhangi bir müzikal bağlam için eşlik üretebildiğini gördük, bu da onu müzik yapımcıları ve sanatçılar için değerli bir araç haline getiriyor.
“Ayrıca, enstrüman referansları ve metin istemleri arasında enterpolasyon, stereo genişliğinin tanımlanması ve döngüler için kesintisiz geçişler oluşturma imkanı gibi ek kontrollere sahip.”
Sony CSL müzik ekibi, modellerini bir dizi testle değerlendirdi. Model, insan dinleyicilerin insan müzisyenler tarafından çalınan kayıtlı eşliklerden ayırt edemediği çeşitli müzik parçaları için yüksek kaliteli enstrümantal eşlikler ürettiği için bulgular oldukça umut verici.
Bir Dakikalık Ses İçin Üç Saniyelik Üretim Hızı
“Diff-A-Riff, gerçek dünya senaryolarında müzik prodüksiyonuna, yaratıcı iş birliğine ve ses tasarımına uygulanabilir.”. “Bir dakikalık ses için üç saniyelik üretim hızı benzeri görülmemiş bir hız ve bu tutarlılık otomatik kodlayıcının yüksek sıkıştırma oranıyla elde ediliyor” açıklaması yapıldı.
Sony CSL’de geliştirilen enstrümantal eşlik oluşturma aracı, yakında dünya çapındaki müzik yapımcıları tarafından kullanılabilir ve mevcut bestelerini tamamlayan enstrümantal parçalar oluşturmalarına olanak tanıyabilir. Diff-A-Riff ayrıca sanatçılar tarafından yeni müzikal fikirleri kolayca keşfetmek için veya ses tasarımcıları tarafından projeleri için farklı tınıları veya çalma stillerini hızla test etmek için kullanılabilir.
Ekip, “Gelecekteki araştırma planlarımız arasında kontrol mekanizmalarını geliştirerek Diff-A-Riff’in yeteneklerini arttırmak ve modeli müzik üretim sürecinin çeşitli aşamalarına entegre etmenin yeni yollarını keşfetmek yer alıyor” diye ekledi.
“Modeli amatörler ve profesyoneller de dahil olmak üzere sanatçılar için daha erişilebilir ve kullanışlı hale getirmek için daha da sezgisel girdiler sağlamayı hedefliyoruz. Ayrıca, modellerimizi daha da iyileştirmek ve doğrulamak için müzisyenler ve bestecilerle işbirliği yaparak müzik endüstrisindeki kullanıcıların pratik ihtiyaçlarını karşılamalarını sağlamayı planlıyoruz.”
Derleyen: Enis Yabar