- Meta, diller arasında gerçek zamanlı iletişim için geliştirdikleri yeni çeviri modeli Seamless’ı tanıttı.
- Seamless çeviri, 100’den fazla sözlü ve yazılı dil arasında gerçek zamanlı çeviri sağlarken konuşmacının sesinin ses stilini, duygusunu ve nüanslarını koruyor.
- Meta’nın açık araştırma ve iş birliğine olan bağlılığına uygun olarak Seamless Communication modelleri Hugging Face ve Github’da Meta verileriyle halka açık olarak yayımlandı.
Meta AI araştırmacıları, diller arasında daha doğal ve gerçekçi iletişimi mümkün kılmayı amaçlayan ve Evrensel Konuşma Çevirmeni kavramını gerçeğe dönüştüren Kesintisiz İletişim adlı yeni bir yapay zeka modelleri paketi geliştirdiklerini duyurdular. Modeller, araştırma makaleleri ve beraberindeki verilerle birlikte bu hafta kamuoyuna açıklandı.
Seamless adı verilen model, diğer üç modelin (SeamlessExpressive, SeamlessStreaming ve SeamlessM4T v2) yeteneklerini tek bir birleşik sistemde birleştiriyor. Araştırma raporuna göre Seamless, gerçek zamanlı olarak etkileyici diller arası iletişimin kilidini açan ilk halka açık sistem.
Seamless çeviri, blog üzerinden iletişim için yapay zeka kullanımında yeni bir sınırı temsil ediyor. Üç sofistike sinir ağı modelini birleştirerek 100’den fazla sözlü ve yazılı dil arasında gerçek zamanlı çeviri sağlarken konuşmacının sesinin ses stilini, duygusunu ve nüanslarını koruyor. Mevcut çeviri araçları, bir konuşmadaki içeriği yakalama konusunda yetenekli olsa da çıktıları genellikle monoton ve robotik ses sistemlerine dayanıyor.
Modellerin yetenekleri, akıllı gözlüklerin kullanıldığı gerçek zamanlı çok dilli konuşmalardan otomatik olarak seslendirilen videolara ve podcast’lere kadar yeni ses tabanlı iletişim deneyimlerini mümkün kılabilir. Araştırmacılar ayrıca göçmenler ve iletişimde zorlanan kişiler için dil engellerini yıkmaya yardımcı olabileceğini öne sürüyor.
Meta, “Çalışmamızı kamuya açıklayarak araştırmacıların ve geliştiricilerin, giderek daha fazla birbirine bağlanan ve birbirine bağımlı hale gelen dünyada çok dilli bağlantılar kurmayı amaçlayan teknolojiler geliştirerek katkılarımızın etkisini genişletebileceklerini umuyoruz.” açıklamalarında bulundu.
Ancak araştırmacılar, teknolojinin sesli kimlik avı dolandırıcılığı, derin sahtecilik ve diğer zararlı uygulamalar için kötüye kullanılabileceğini de kabul ediyor. Modellerin güvenliğini ve sorumlu kullanımını teşvik etmek için ses filigranı ve halüsinasyonlu çıktıları azaltmak için yeni teknikler de dahil olmak üzere çeşitli önlemler alındı.
Meta’nın açık araştırma ve iş birliğine olan bağlılığına uygun olarak Seamless Communication modelleri Hugging Face ve Github’da halka açık olarak yayımlandı. Koleksiyonda Seamless, SeamlessExpressive, SeamlessStreaming ve SeamlessM4T v2 modellerinin yanı sıra bunlara eşlik eden Meta verileri de yer alıyor.
Meta, bu son teknoloji doğal dil işleme modellerini ücretsiz olarak kullanıma sunacak. Böylelikle diğer araştırmacılara ve geliştiricilere bu çalışmanın diller ve kültürler arasında insanları birbirine bağlamak için yardımcı olacağını umuyor. Bu sürüm, Meta’nın açık kaynak yapay zeka alanındaki liderliğinin altını çiziyor ve araştırma topluluğu için değerli yeni bir kaynak sağlıyor.
Derleyen: Esin Özcan