Bu siteyi kullanarak Gizlilik Politikasını ve Kullanım Koşullarını kabul etmiş olursunuz.
Onayla
dijitaliyidir
Pazartesi, Haz 23, 2025
  • En çok bakılanlar:
  • dijitaliyidir
  • Editörün Seçimi
  • Teknoloji
  • Bilim
  • Yapay Zeka
  • Yapay Zeka
  • HABERLER
    • Editörün Seçtikleri
    • Bilim
    • Teknoloji
    • Yapay Zeka
    • VPN
    • Dijital Yayıncılık
    • Oyun Dünyası
    • Sosyal Ağlar
      • Instagram
      • Twitter
      • Facebook
      • TikTok
      • YouTube
      • LinkedIn
    • Çevre & Yeşil Dünya
    • Dijital Sanat & NFT
    • Kripto
    • Girişimcilik
    • Deprem Gündemi
    Dijital Pazarlama
    • Ana Sayfa
    • Giriş
    • Şifre Hatırlatma
    • Şifre Değiştir
    • Logout
    Hızlı Link
    • Ana Sayfa
    • Giriş
    • Şifre Hatırlatma
    • Şifre Değiştir
    • Logout
  • Etkinlikler
  • Okunası
    • Kimdir?
    • Nedir? Nasıl Yapılır?
    • Köşe Yazıları
    • Listeler
    • Dosya Haber
    • Deprem Gündemi
    • 2024’ün Ardından
    • 2023’ün Ardından
    • 2022’nin Ardından
  • dijitaliyidir
    • Ekibimiz
    • Hesabım
    • İletişim
    • Dijitaliyidir Kampüs
    • İş İlanları
  • Kayıt & Giriş
  • E-Mağaza
Okuma: Microsoft’un Yeni Yapay Zekâsı: Sesinizi Taklit Etmesi İçin 3 Saniye Yeterli
Bülten
Ara
dijitaliyidirdijitaliyidir
Yazı Tipi Yeniden BoyutlandırıcıAa
Ara
  • HABERLER
    • Editörün Seçtikleri
    • Bilim
    • Teknoloji
    • Yapay Zeka
    • VPN
    • Dijital Yayıncılık
    • Oyun Dünyası
    • Sosyal Ağlar
    • Çevre & Yeşil Dünya
    • Dijital Sanat & NFT
    • Kripto
    • Girişimcilik
    • Deprem Gündemi
  • Etkinlikler
  • Okunası
    • Kimdir?
    • Nedir? Nasıl Yapılır?
    • Köşe Yazıları
    • Listeler
    • Dosya Haber
    • Deprem Gündemi
    • 2024’ün Ardından
    • 2023’ün Ardından
    • 2022’nin Ardından
  • dijitaliyidir
    • Ekibimiz
    • Hesabım
    • İletişim
    • Dijitaliyidir Kampüs
    • İş İlanları
  • Kayıt & Giriş
  • E-Mağaza

dijitaltrend →

Elon Musk’ın Trilyon Dolarlık Robotaksi Hamlesi Başladı: Tesla’nın Otonom Geleceği Test Ediliyor

Gönderen Enis Yabar 23/06/2025 11:28

Modern Astronominin Doğuş Yeri Greenwich Kraliyet Gözlemevi 350 Yaşında

Gönderen Enis Yabar 23/06/2025 11:00

Melanie Klein: Psikanalizi Dönüştüren Tartışmalı Bir Figürün Mirası

Gönderen Enis Yabar 23/06/2025 10:08

Keneler: Kendileri Küçük, Dev Felaketler!

Gönderen Aslıhan Yıldız 22/06/2025 17:24

Mafia: The Old Country, Ağustos Öncesi Altın Aşamasına Ulaştı!

Gönderen Aslıhan Yıldız 22/06/2025 12:31
Mevcut bir hesabınız var mı? giriş yap
Takip Et:
© Foxiz News Network. Ruby Design Company. All Rights Reserved.
dijitaliyidir > Blog > Microsoft > Microsoft’un Yeni Yapay Zekâsı: Sesinizi Taklit Etmesi İçin 3 Saniye Yeterli
MicrosoftTeknolojiYapay Zeka

Microsoft’un Yeni Yapay Zekâsı: Sesinizi Taklit Etmesi İçin 3 Saniye Yeterli

Arda Yardımsever
Son güncelleme: 08/08/2023 23:06 23:06
Gönderen Arda Yardımsever
Paylaş
3 dk Okuma Süresi
Paylaş

Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini yakından taklit edebilen VALL-E adlı yeni bir metinden sese yapay zeka modelini duyurdu.

VALL-E, belirli bir sesi öğrendikten sonra o kişinin herhangi bir şey söylediği sesi sentezleyebilir ve bunu konuşmacının tonunu korumaya çalışacak şekilde yapabilir.

VALL-E’nin GPT-3 gibi diğer üretken AI modelleriyle birleştirildiğinde metinden konuşmaya uygulamalar, bir kişinin ses kaydını düzenleme ve ses içeriği oluşturma gibi alanlarda kullanılabileceği düşünülüyor.

Microsoft, VALL-E’yi “nöral kodek dil modeli” olarak adlandırıyor ve Meta’nın Ekim 2022’de duyurduğu EnCodec adlı bir teknolojiyi temel alıyor.

Tipik olarak dalga formlarını manipüle ederek konuşmayı sentezleyen diğer metinden konuşmaya yöntemlerinin aksine VALL-E, metin ve akustik istemlerden ayrı ses kodek kodları üretiyor. Temel olarak bir kişinin nasıl ses çıkardığını analiz eder, EnCodec sayesinde bu bilgiyi ayrık bileşenlere ayırır ve üç saniyelik örneğin dışında başka ifadeler konuşursa bu sesin nasıl çıkacağına dair “bildiklerini” eşleştirmek için eğitim verilerini kullanır.

Microsoft’un VALL-E makalesinde belirttiği gibi:

“Kişiselleştirilmiş konuşma sentezlemek için VALL-E, sırasıyla konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtlı kaydın akustik belirteçlerine ve fonem istemine bağlı olarak ilgili akustik belirteçleri üretir. Son olarak, üretilen akustik belirteçler, ilgili nöral kod çözücü ile nihai dalga biçimini sentezlemek için kullanılır.”

Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir araya getirilen LibriLight adlı bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu LibriVox kamu malı sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin iyi bir sonuç üretebilmesi için, üç saniyelik örnekteki sesin eğitim verilerindeki bir sesle yakından eşleşmesi gerekiyor.

VALL-E örnek web sitesinde Microsoft, yapay zeka modelinin iş başında olduğu düzinelerce ses örneği sunuyor.

Örnekler arasında yer alan “Speaker Prompt”, VALL-E’ye taklit etmesi için verilen üç saniyelik bir ses örneği. “Ground Truth”, aynı konuşmacının karşılaştırma amacıyla belirli bir cümleyi söylediği önceden var olan bir kayıt (bir kontrol olarak düşünebilirsiniz). “Baseline” ise geleneksel bir metinden konuşmaya sentezleme yöntemi tarafından sağlanan bir sentezleme örneği. Ve son olarak VALL-E’nin çıktısı.

Bazı sonuçlar bilgisayar tarafından üretilmiş gibi duyulsa da diğerleri potansiyel olarak bir insanın konuşmasıyla karıştırılabilir.

VALL-E’nin çalışma modelini özetleyen görsel

VALL-E, konuşmacının vokal tınısını ve duygusal tonunu korumanın yanı sıra örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin, ses örneği bir telefon görüşmesinden geliyorsa, sentezlenmiş ses çıktısında bir telefon görüşmesinin akustik ve frekans özellikleri taklit edilebilir.

Microsoft, potansiyel kötüye kullanım ve aldatmacayı körükleme ihtimalleri nedeniyle VALL-E’nin kodunu kamuya açmadı. Araştırmacılar, bu teknolojinin neden olabileceği potansiyel sosyal zararın farkında olarak makalenin sonuç bölümünde şöyle yazıyor:

“VALL-E, konuşmacı kimliğini koruyan bir konuşma sentezleyebildiğinden, modelin kötüye kullanımında ses tanımlama sahtekarlığı veya belirli bir konuşmacıyı taklit etme gibi potansiyel riskler taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt etmek için bir algılama modeli oluşturmak mümkündür. Modelleri daha da geliştirirken Microsoft Yapay Zeka İlkelerini de uygulamaya koyacağız.”

Derleyen: Arda Yardımsever

Arda Yardımsever

Kürselleşmiş dünyanın içine doğan bir Z kuşağı. Dil bilime olan ilgisi sayesinde dünya vatandaşlığı pasaportunu doğuştan alan biri.Arda’nın dijitaliyidir için sloganı “dijital eğer siz dünyaya açıksanız iyidir” oldu…Mail: arda@dijitaliyidir.com

Aboneliğinizi onaylamak için gelen veya istenmeyen posta kutunuzu kontrol edin.

ETİKETLER:3 saniyeAIdijitaliyidirmetinden konuşmayamicrosoftsestext-to-speechVALL-E
Bu içeriği paylaş
Facebook Twitter Copy Link
Bu yazıya tepkin ne olur?
Love0
Sad0
Happy0
Sleepy0
Angry0
Dead0
Wink0
Yorum yaz

Bir yanıt yazın Yanıtı iptal et

Yorum yapabilmek için oturum açmalısınız.

Bizi Takip Et

FacebookLike
TwitterFollow
InstagramFollow
banner banner

Son Eklenenler

Robotaxi
Elon Musk’ın Trilyon Dolarlık Robotaksi Hamlesi Başladı: Tesla’nın Otonom Geleceği Test Ediliyor
Teknoloji
Greenwich
Modern Astronominin Doğuş Yeri Greenwich Kraliyet Gözlemevi 350 Yaşında
Uzay
Melanie Klein
Melanie Klein: Psikanalizi Dönüştüren Tartışmalı Bir Figürün Mirası
Kimdir?
Kene
Keneler: Kendileri Küçük, Dev Felaketler!
Bilim

Bunları da beğenebilirsin ↷

Mafia: The Old Country

Mafia: The Old Country, Ağustos Öncesi Altın Aşamasına Ulaştı!

22/06/2025 12:31
Şizofreni

Haftada Bir Kez Alınan Bu Hap Şizofreni Tedavisinde Devrim Yaratabilir!

21/06/2025 09:59
Yapay Zeka

Yapay Zeka Okullardaki Tehditleri Öngörebilir Mi?

21/06/2025 09:57

Bir Avokado, İki Kazanç: Uyku ve Kalp

20/06/2025 17:22
Tüm içerikler Dijitaliyidir'e aittir ve web sitemiz kaynak gösterilmek koşulu ile kullanıma açıktır