OpenAI, ChatGPT’nin yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel kullanarak yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor.
OpenAI’ın Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.
Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket, yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor.
Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

OpenAI’ın ChatGPT’de yaptığı değişikliklerin çoğu, yapay zeka destekli botun yapabileceklerini kapsıyor. GPT’nin cevaplayabileceği sorular, erişebileceği bilgiler ve geliştirilmiş temel modelleri gibi… Ancak OpenAI bu kez, ChatGPT’yi kullanma şeklinizi değiştiriyor. Şirket, yapay zeka botunu yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel yükleyerek yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor. OpenAI’a göre yeni özellikler, önümüzdeki iki hafta içinde ChatGPT için ödeme yapanlara sunulacak ve diğer herkes “kısa bir süre sonra” buna sahip olacak.

Sesli sohbet kısmı oldukça tanıdık. Bir düğmeye dokunup sorunuzu söylüyorsunuz, ChatGPT bunu metne dönüştürüyor ve büyük dil modeline aktarıyor. Daha sonra bir yanıt geliyor, GPT bunu tekrar konuşmaya dönüştürüyor ve yanıtı yüksek sesle okuyor. Tıpkı Alexa ya da Google Assistant ile gibi. Sadece -OpenAI’nin umduğu üzere- altta yatan gelişmiş teknoloji sayesinde cevaplar daha verimli olacak.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

OpenAI’ın mükemmel Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.

ChatGPT’nin sesini beş seçenek arasından seçmek mümkün olacak. Ancak OpenAI modelin bundan çok daha fazla potansiyele sahip olduğunu düşünüyor. OpenAI, örneğin podcastleri diğer dillere çevirmek için Spotify ile birlikte çalışıyor ve bu sırada podcast yayıncısının sesini koruyor. Sentetik sesler için pek çok ilginç kullanım alanı var ve OpenAI bu sektörün büyük bir parçası olabilir.

Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor. OpenAI, modelin tam da bu nedenle geniş kullanım için uygun olmadığını söylüyor.

Bu arada görsel arama biraz Google Lens’e benziyor. İlgilendiğiniz şeyin fotoğrafını çekiyorsunuz ve ChatGPT ne hakkında soru sorduğunuzu anlamaya çalışıyor. Sonra buna uygun yanıt veriyor. Ayrıca sorgunuzu netleştirmek için uygulamanın çizim aracını kullanabilir veya görüntüyle birlikte sesli komut verip veya metin yazabilirsiniz.

Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

ChatGPT’nin ilk lansmanından neredeyse bir yıl sonra, OpenAI hâlâ yeni sorunlar ve dezavantajlar yaratmadan botuna nasıl daha fazla özellik ve yetenek kazandıracağını bulmaya çalışıyor. Bu sürümlerle şirket, yeni modellerinin yapabileceklerini kasıtlı olarak sınırlandırarak ince bir çizgide yürümeye çalışıyor. Ancak bu yaklaşım gelecek vaat etmiyor.

Derleyen: Alp Eren Gümüş

dijitaltrend →

Dijital Ayak İzinin Karanlık Yüzü: Riskler ve Sonuçlar

Apple’ın Yapay Zekası: Apple Intelligence

iPad Artık Tam Donanımlı Bir Bilgisayar

WWDC 2025’te Apple’dan Sürpriz Gecikme!

Apple, Yeni Oyun Platformu Apple Games’i Bu Yıl Piyasaya Sürecek

ChatGPT’ye Görsel ve Sesli Komutlar Vermek Mümkün Oluyor

Bir yanıt yazın Yanıtı iptal et

Bizi Takip Et

Son Eklenenler

Dijital Ayak İzinin Karanlık Yüzü: Riskler ve Sonuçlar

Apple’ın Yapay Zekası: Apple Intelligence

iPad Artık Tam Donanımlı Bir Bilgisayar

WWDC 2025’te Apple’dan Sürpriz Gecikme!

Bunları da beğenebilirsin ↷

Fotobiyomodülasyon: Işık, Yalnızca Görmek İçin mi?

iOS 26 ile Anime Tarzı Görseller Oluşturmak Mümkün!

Android 16 Yayınlandı: Canlı Bildirim Güncellemeleri ve Yeni Kamera Özellikleri Sunuldu

ChatGPT Kullananlarda Ruhsal Çöküş Alarmı!

Dijital Pazarlama

Hızlı Link

dijitaltrend →

Bir yanıt yazın Yanıtı iptal et

Bizi Takip Et

Son Eklenenler