Microsoft’un Yeni Yapay Zekâsı: Sesinizi Taklit Etmesi İçin 3 Saniye Yeterli

Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini yakından taklit edebilen VALL-E adlı yeni bir metinden sese yapay zeka modelini duyurdu.

VALL-E, belirli bir sesi öğrendikten sonra o kişinin herhangi bir şey söylediği sesi sentezleyebilir ve bunu konuşmacının tonunu korumaya çalışacak şekilde yapabilir.

VALL-E’nin GPT-3 gibi diğer üretken AI modelleriyle birleştirildiğinde metinden konuşmaya uygulamalar, bir kişinin ses kaydını düzenleme ve ses içeriği oluşturma gibi alanlarda kullanılabileceği düşünülüyor.

Microsoft, VALL-E’yi “nöral kodek dil modeli” olarak adlandırıyor ve Meta’nın Ekim 2022’de duyurduğu EnCodec adlı bir teknolojiyi temel alıyor.

Tipik olarak dalga formlarını manipüle ederek konuşmayı sentezleyen diğer metinden konuşmaya yöntemlerinin aksine VALL-E, metin ve akustik istemlerden ayrı ses kodek kodları üretiyor. Temel olarak bir kişinin nasıl ses çıkardığını analiz eder, EnCodec sayesinde bu bilgiyi ayrık bileşenlere ayırır ve üç saniyelik örneğin dışında başka ifadeler konuşursa bu sesin nasıl çıkacağına dair “bildiklerini” eşleştirmek için eğitim verilerini kullanır.

Microsoft’un VALL-E makalesinde belirttiği gibi:

“Kişiselleştirilmiş konuşma sentezlemek için VALL-E, sırasıyla konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtlı kaydın akustik belirteçlerine ve fonem istemine bağlı olarak ilgili akustik belirteçleri üretir. Son olarak, üretilen akustik belirteçler, ilgili nöral kod çözücü ile nihai dalga biçimini sentezlemek için kullanılır.”

Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir araya getirilen LibriLight adlı bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu LibriVox kamu malı sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin iyi bir sonuç üretebilmesi için, üç saniyelik örnekteki sesin eğitim verilerindeki bir sesle yakından eşleşmesi gerekiyor.

VALL-E örnek web sitesinde Microsoft, yapay zeka modelinin iş başında olduğu düzinelerce ses örneği sunuyor.

Örnekler arasında yer alan “Speaker Prompt”, VALL-E’ye taklit etmesi için verilen üç saniyelik bir ses örneği. “Ground Truth”, aynı konuşmacının karşılaştırma amacıyla belirli bir cümleyi söylediği önceden var olan bir kayıt (bir kontrol olarak düşünebilirsiniz). “Baseline” ise geleneksel bir metinden konuşmaya sentezleme yöntemi tarafından sağlanan bir sentezleme örneği. Ve son olarak VALL-E’nin çıktısı.

Bazı sonuçlar bilgisayar tarafından üretilmiş gibi duyulsa da diğerleri potansiyel olarak bir insanın konuşmasıyla karıştırılabilir.

VALL-E’nin çalışma modelini özetleyen görsel

VALL-E, konuşmacının vokal tınısını ve duygusal tonunu korumanın yanı sıra örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin, ses örneği bir telefon görüşmesinden geliyorsa, sentezlenmiş ses çıktısında bir telefon görüşmesinin akustik ve frekans özellikleri taklit edilebilir.

Microsoft, potansiyel kötüye kullanım ve aldatmacayı körükleme ihtimalleri nedeniyle VALL-E’nin kodunu kamuya açmadı. Araştırmacılar, bu teknolojinin neden olabileceği potansiyel sosyal zararın farkında olarak makalenin sonuç bölümünde şöyle yazıyor:

“VALL-E, konuşmacı kimliğini koruyan bir konuşma sentezleyebildiğinden, modelin kötüye kullanımında ses tanımlama sahtekarlığı veya belirli bir konuşmacıyı taklit etme gibi potansiyel riskler taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt etmek için bir algılama modeli oluşturmak mümkündür. Modelleri daha da geliştirirken Microsoft Yapay Zeka İlkelerini de uygulamaya koyacağız.”

Derleyen: Arda Yardımsever

En Son

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Avatar Video Oyunu O Kadar İyi ki Filmlere Gerek Kalmayabilir

Avatar evreni uzun süredir sinema ile özdeşleşmiş olsa da, yeni video oyunu deneyimi bu dünyayı izlemekten çıkarıp doğrudan yaşanabilir bir gerçekliğe dönüştürerek filmlerin rolünü bile sorgulatıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.

Yılın En Aptalca Hack’i Çok Gerçek Bir Sorunu Ortaya Çıkardı

Silikon Vadisi’nde yaya geçidi butonlarının hacklenmesiyle ortaya çıkan tuhaf olay, ilk bakışta basit bir şaka gibi görünse de aslında modern şehirlerin siber güvenlik konusunda ne kadar savunmasız olduğunu gözler önüne serdi.

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.
Arda Yardımsever
Arda Yardımseverhttp://dijitaliyidir.com/
Kürselleşmiş dünyanın içine doğan bir Z kuşağı. Dil bilime olan ilgisi sayesinde dünya vatandaşlığı pasaportunu doğuştan alan biri.Arda’nın dijitaliyidir için sloganı “dijital eğer siz dünyaya açıksanız iyidir” oldu…Mail: arda@dijitaliyidir.com

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Project Hail Mary: NASA Bilimi Bilim Kurgunun Gerçek Sınırlarını Zorluyor mu?

*Project Hail Mary* ile yeniden gündeme gelen derin uzay yolculuğu ve NASA’nın gerçek bilimsel çalışmaları, bilim kurgu ile gerçeklik arasındaki sınırın aslında ne kadar ince olduğunu bir kez daha tartışmaya açıyor.

Bu Ay İzleyebileceğiniz En İyi 10 Dizi

Dijital platformların içerik bombardımanına dönüştüğü günümüzde, gerçekten izlemeye değer dizileri seçmek her zamankinden daha zor hale gelirken, öne çıkan yapımlar izleyicilere güçlü ve unutulmaz deneyimler sunmayı başarıyor.