Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini yakından taklit edebilen VALL-E adlı yeni bir metinden sese yapay zeka modelini duyurdu.
VALL-E, belirli bir sesi öğrendikten sonra o kişinin herhangi bir şey söylediği sesi sentezleyebilir ve bunu konuşmacının tonunu korumaya çalışacak şekilde yapabilir.
VALL-E’nin GPT-3 gibi diğer üretken AI modelleriyle birleştirildiğinde metinden konuşmaya uygulamalar, bir kişinin ses kaydını düzenleme ve ses içeriği oluşturma gibi alanlarda kullanılabileceği düşünülüyor.
Microsoft, VALL-E’yi “nöral kodek dil modeli” olarak adlandırıyor ve Meta’nın Ekim 2022’de duyurduğu EnCodec adlı bir teknolojiyi temel alıyor.
Tipik olarak dalga formlarını manipüle ederek konuşmayı sentezleyen diğer metinden konuşmaya yöntemlerinin aksine VALL-E, metin ve akustik istemlerden ayrı ses kodek kodları üretiyor. Temel olarak bir kişinin nasıl ses çıkardığını analiz eder, EnCodec sayesinde bu bilgiyi ayrık bileşenlere ayırır ve üç saniyelik örneğin dışında başka ifadeler konuşursa bu sesin nasıl çıkacağına dair “bildiklerini” eşleştirmek için eğitim verilerini kullanır.
Microsoft’un VALL-E makalesinde belirttiği gibi:
“Kişiselleştirilmiş konuşma sentezlemek için VALL-E, sırasıyla konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtlı kaydın akustik belirteçlerine ve fonem istemine bağlı olarak ilgili akustik belirteçleri üretir. Son olarak, üretilen akustik belirteçler, ilgili nöral kod çözücü ile nihai dalga biçimini sentezlemek için kullanılır.”
Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir araya getirilen LibriLight adlı bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu LibriVox kamu malı sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin iyi bir sonuç üretebilmesi için, üç saniyelik örnekteki sesin eğitim verilerindeki bir sesle yakından eşleşmesi gerekiyor.
VALL-E örnek web sitesinde Microsoft, yapay zeka modelinin iş başında olduğu düzinelerce ses örneği sunuyor.
Örnekler arasında yer alan “Speaker Prompt”, VALL-E’ye taklit etmesi için verilen üç saniyelik bir ses örneği. “Ground Truth”, aynı konuşmacının karşılaştırma amacıyla belirli bir cümleyi söylediği önceden var olan bir kayıt (bir kontrol olarak düşünebilirsiniz). “Baseline” ise geleneksel bir metinden konuşmaya sentezleme yöntemi tarafından sağlanan bir sentezleme örneği. Ve son olarak VALL-E’nin çıktısı.
Bazı sonuçlar bilgisayar tarafından üretilmiş gibi duyulsa da diğerleri potansiyel olarak bir insanın konuşmasıyla karıştırılabilir.
VALL-E, konuşmacının vokal tınısını ve duygusal tonunu korumanın yanı sıra örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin, ses örneği bir telefon görüşmesinden geliyorsa, sentezlenmiş ses çıktısında bir telefon görüşmesinin akustik ve frekans özellikleri taklit edilebilir.
Microsoft, potansiyel kötüye kullanım ve aldatmacayı körükleme ihtimalleri nedeniyle VALL-E’nin kodunu kamuya açmadı. Araştırmacılar, bu teknolojinin neden olabileceği potansiyel sosyal zararın farkında olarak makalenin sonuç bölümünde şöyle yazıyor:
“VALL-E, konuşmacı kimliğini koruyan bir konuşma sentezleyebildiğinden, modelin kötüye kullanımında ses tanımlama sahtekarlığı veya belirli bir konuşmacıyı taklit etme gibi potansiyel riskler taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt etmek için bir algılama modeli oluşturmak mümkündür. Modelleri daha da geliştirirken Microsoft Yapay Zeka İlkelerini de uygulamaya koyacağız.”
Derleyen: Arda Yardımsever