- Araştırmacılar, insan algısını kullanarak ses kalitesini önemli ölçüde artırmayı vaat eden yeni bir derin öğrenme modeli geliştirdi.
- Bu çalışma, yeni yapay zeka modelini önceki araştırmalardan elde edilen ve konuşan insanların kayıtlarını içeren iki veri kümesi üzerinde eğitti.
- Araştırmacılar, insanlar tarafından yapılan öznel ses kalitesi derecelendirmelerini kullanabileceklerini ve bunu bir konuşma geliştirme modeliyle birleştirerek nesnel ölçütlerle ölçülen daha iyi konuşma kalitesi elde edebileceklerini keşfettiler.
Araştırmacılar, insan algısını kullanarak ses kalitesini önemli ölçüde artırmayı vaat eden yeni bir derin öğrenme modeli geliştirdi. Araştırmacılar, insanlar tarafından yapılan öznel ses kalitesi derecelendirmelerini kullanabileceklerini ve bunu bir konuşma geliştirme modeliyle birleştirerek nesnel ölçütlerle ölçülen daha iyi konuşma kalitesi elde edebileceklerini keşfettiler.
Yeni model, dinleyicinin gerçekte duymak istediği şeyi bozabilecek gürültülü seslerin varlığını en aza indirmede diğer standart yaklaşımlardan daha iyi performans gösterdi. En önemlisi, modelin ürettiği tahmini kalite puanlarının insanların vereceği kararlarla güçlü bir şekilde ilişkili olduğu görülmüştür.
Çalışmanın ortak yazarı ve Ohio Eyalet Üniversitesinde bilgisayar bilimi ve mühendisliği alanından Doçent Donald Williamson araştırma hakkında konuştu: “Arka plan gürültüsünü sınırlandırmaya yönelik geleneksel önlemler, istenen sinyalden gürültüyü çıkarmak için yapay zeka algoritmalarını kullanmıştır. Ancak bu nesnel yöntemler her zaman dinleyicilerin konuşmayı neyin anlaşılır kıldığına dair değerlendirmeleriyle örtüşmüyor. Bu çalışmayı diğerlerinden ayıran şey, istenmeyen sesleri çıkarmak üzere modeli eğitmek için algıyı kullanmaya çalışıyor olmamızdır. Sinyalin kalitesiyle ilgili bir şey insanlar tarafından algılanabiliyorsa, modelimiz bunu öğrenmek ve gürültüyü daha iyi gidermek için ek bilgi kullanabilir.
IEEE/ACM Transactions on Audio, Speech, and Language Processing dergisinde yayımlanan çalışma, tek sesli konuşma geliştirmeyi veya tek mikrofon gibi tek bir ses kanalından gelen konuşmayı geliştirmeye odaklandı.
Bu çalışma, yeni yapay zeka modelini önceki araştırmalardan elde edilen ve konuşan insanların kayıtlarını içeren iki veri kümesi üzerinde eğitti. Bazı durumlarda, konuşmaları gizleyebilecek TV veya müzik gibi arka plan gürültüleri vardı. Dinleyiciler her kaydın konuşma kalitesini 1 ila 100 arasında değerlendirdi.
Bu ekibin modeli performansını, insan dinleyicilerin gürültülü bir sinyale verebileceği ortalama görüş puanını tahmin edebilen bir tahmin modeli ile özel bir konuşma geliştirme dil modülünü birleştiren ortak öğrenme yönteminden alıyor. Sonuçlar, yeni yaklaşımlarının algısal kalite, anlaşılabilirlik ve insan değerlendirmeleri gibi nesnel ölçütlerle ölçülen daha iyi konuşma kalitesini sağlamada diğer modellerden daha iyi performans sergilediğini gösterdi.
Ancak Williamson, ses kalitesinin insan algısını kullanarak değerlendirilmesinin bazı sorunları olduğunu belirtiyor ve ekliyor: “Gürültülü sesin değerlendirilmesini bu kadar zorlaştıran şey, bunun çok öznel olması. Bu sizin işitme kapasitenize ve işitme deneyimlerinize bağlıdır. İşitme cihazı ya da koklear implant gibi faktörler de ortalama bir insanın ses ortamından ne kadar ses algıladığını etkiliyor”
Gürültülü konuşmanın kalitesini artırmak işitme cihazlarını, konuşma tanıma programlarını, konuşmacı doğrulama uygulamalarını ve iletişim sistemlerini geliştirmek için çok önemli olduğundan algıdaki bu farklılıkların gürültülü sesin kullanıcı dostu olmasını sağlama açısından önemlidir.
Yapay zeka ve gerçek dünya arasındaki karmaşık ilişki gelişmeye devam ettikçe Williamson, görüntüler için artırılmış gerçeklik cihazlarına benzer şekilde gelecekteki teknolojilerin sesi gerçek zamanlı olarak artırabileceğini, tüketicinin genel dinleme deneyimini iyileştirmek için ses ortamının belirli bölümlerini ekleyebileceğini veya çıkarabileceğini düşünüyor. Modelin geliştirilmesi süreci hakkında şunları ekliyor: “Genel olarak, tüm makine öğrenimi yapay zeka sürecinin daha fazla insan katılımına ihtiyacı var. Alanın bu önemin farkına varacağını ve bu yolda ilerlemeyi desteklemeye devam edeceğini umuyorum.”
Bu noktaya ulaşmaya yardımcı olmak için araştırmacılar, modellerini daha da karmaşık ses sistemleriyle başa çıkacak şekilde güçlendirmek ve insan kullanıcıların sürekli değişen beklentilerine ayak uydurmasını sağlamak için insanların öznel değerlendirmelerini kullanmaya devam etmeyi planlıyor.
Derleyen: Esin Özcan