ChatGPT’ye Görsel ve Sesli Komutlar Vermek Mümkün Oluyor

  • OpenAI, ChatGPT’nin yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel kullanarak yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor.
  • OpenAI’ın Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.
  • Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket, yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor.
  • Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

OpenAI’ın ChatGPT’de yaptığı değişikliklerin çoğu, yapay zeka destekli botun yapabileceklerini kapsıyor. GPT’nin cevaplayabileceği sorular, erişebileceği bilgiler ve geliştirilmiş temel modelleri gibi… Ancak OpenAI bu kez, ChatGPT’yi kullanma şeklinizi değiştiriyor. Şirket, yapay zeka botunu yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel yükleyerek yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor. OpenAI’a göre yeni özellikler, önümüzdeki iki hafta içinde ChatGPT için ödeme yapanlara sunulacak ve diğer herkes “kısa bir süre sonra” buna sahip olacak.

Sesli sohbet kısmı oldukça tanıdık. Bir düğmeye dokunup sorunuzu söylüyorsunuz, ChatGPT bunu metne dönüştürüyor ve büyük dil modeline aktarıyor. Daha sonra bir yanıt geliyor, GPT bunu tekrar konuşmaya dönüştürüyor ve yanıtı yüksek sesle okuyor. Tıpkı Alexa ya da Google Assistant ile gibi. Sadece -OpenAI’nin umduğu üzere- altta yatan gelişmiş teknoloji sayesinde cevaplar daha verimli olacak.

OpenAI’ın mükemmel Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.

ChatGPT’nin sesini beş seçenek arasından seçmek mümkün olacak. Ancak OpenAI modelin bundan çok daha fazla potansiyele sahip olduğunu düşünüyor. OpenAI, örneğin podcastleri diğer dillere çevirmek için Spotify ile birlikte çalışıyor ve bu sırada podcast yayıncısının sesini koruyor. Sentetik sesler için pek çok ilginç kullanım alanı var ve OpenAI bu sektörün büyük bir parçası olabilir.

Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor. OpenAI, modelin tam da bu nedenle geniş kullanım için uygun olmadığını söylüyor.

Bu arada görsel arama biraz Google Lens’e benziyor. İlgilendiğiniz şeyin fotoğrafını çekiyorsunuz ve ChatGPT ne hakkında soru sorduğunuzu anlamaya çalışıyor. Sonra buna uygun yanıt veriyor. Ayrıca sorgunuzu netleştirmek için uygulamanın çizim aracını kullanabilir veya görüntüyle birlikte sesli komut verip veya metin yazabilirsiniz.

Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

ChatGPT’nin ilk lansmanından neredeyse bir yıl sonra, OpenAI hâlâ yeni sorunlar ve dezavantajlar yaratmadan botuna nasıl daha fazla özellik ve yetenek kazandıracağını bulmaya çalışıyor. Bu sürümlerle şirket, yeni modellerinin yapabileceklerini kasıtlı olarak sınırlandırarak ince bir çizgide yürümeye çalışıyor. Ancak bu yaklaşım gelecek vaat etmiyor.

Derleyen: Alp Eren Gümüş

En Son

Kuantum Hesaplama: Avrupa’nın Kazanabileceği Bir Teknoloji Yarışı mı?

Kuantum bilgisayarlar, son yıllarda teknoloji dünyasının en kritik yarış alanlarından biri haline gelirken, Avrupa da bu alanda güçlü bir bilimsel altyapıya sahip olmasına rağmen küresel rekabette yerini sağlamlaştırmaya çalışıyor.

Manosphere: Dating Kültürünü Şekillendiren Tartışmalı Terimler

Bir zamanlar yalnızca internetin karanlık köşelerinde ve manosphere içinde kullanılan “alpha”, “Chad” ve “body count” gibi terimler, bugün sosyal medyada ve flört içeriklerinde hızla yayılırken, aslında çok daha büyük bir ideolojik dönüşümün izlerini taşıyor.

Yeni Trump Mobile Tasarımı ortaya çıktı

Trump Mobile’ın uzun süredir merakla beklenen T1 akıllı telefonu, ilk kez gerçek görüntüleri ve güncellenmiş özellikleriyle ortaya çıktı ve cihazın önceki tanıtımlara göre oldukça farklı bir tasarım ve donanımla geliştirildiği görülüyor.

Bieber’ın Coachella Performansı Müzik Endüstrisinin Geldiği Noktayı Gösteriyor

Justin Bieber, Coachella 2026 sahnesine sadece “geri dönmek” için...

Bültene Kaydol

Üye Özel

Yapay Zekâ Damgası: Dünyanın Prestijli Girişim Gününde 16 Çarpıcı Startup

Y Combinator’ın Winter 2026 Demo Day etkinliğinde tanıtılan yaklaşık 190 girişim arasından öne çıkan 16 startup, yapay zekânın farklı sektörlerde nasıl dönüştürücü bir rol üstlendiğini gözler önüne serdi. Hukuktan sağlığa, güvenlikten enerjiye uzanan projeler dikkat çekti.

Kagi’nin İnsan Odaklı İnterneti: ‘Küçük Web’le Tanışın

Kagi’nin ‘Küçük Web’ girişimi, interneti sadece insanlar tarafından yazılmış içeriklerle keşfetmeye odaklanıyor. Kişisel bloglar, bağımsız videolar ve web çizgi romanları, mobil ve web uygulamaları üzerinden daha erişilebilir hâle geliyor.

Yapay Zekâyla Konuşmanın Doğru Yolu

Yapay zekâya “lütfen” demek işe yarıyor mu? Onu tehdit etmek mi, yoksa bir bilim kurgu dizisindeki karakter gibi konuşturmak mı daha etkili? Uzmanlara göre sohbet robotlarından daha iyi sonuç almanın yolu sandığınız kadar gizemli değil.

LGBTQ+ Sporcular 2026 Kış Olimpiyat Oyunlarında Ön Planda Olacak

Açık kimlikleriyle LGBTQ+ olan yaklaşık 50 Olimpiyat sporcusu, konuşma ve yarışma hakları saldırı altında olmasına rağmen Kış Olimpiyat Oyunları boyunca çeşitli etkinliklerde yer alıyor.

Kripto Parayla Finanse Edilen İnsan Ticareti Hızla Artıyor

Tahminlere göre, fuhuş ve dolandırıcılık amacıyla insan ticareti işlemlerinde kripto para birimlerinin kullanımı 2025 yılında neredeyse iki katına çıktı.
Alp Eren Gümüş
Alp Eren Gümüş
Teknoloji, uçsuz bucaksız potansiyeliyle her geçen gün hayatımızın daha büyük bir parçası haline gelmekte. Tüm bu gelişmelerin peşinde, bizi biz yapan değerleri kaybetmemeyi dileyen bir hayalperest. Dijitaliyidir için Alp’in sloganı “dijital doğru ellerde iyidir” oldu.

- dijitaliyidir Sponsor Desteği -

spot_imgspot_img

Kuantum Hesaplama: Avrupa’nın Kazanabileceği Bir Teknoloji Yarışı mı?

Kuantum bilgisayarlar, son yıllarda teknoloji dünyasının en kritik yarış alanlarından biri haline gelirken, Avrupa da bu alanda güçlü bir bilimsel altyapıya sahip olmasına rağmen küresel rekabette yerini sağlamlaştırmaya çalışıyor.

Manosphere: Dating Kültürünü Şekillendiren Tartışmalı Terimler

Bir zamanlar yalnızca internetin karanlık köşelerinde ve manosphere içinde kullanılan “alpha”, “Chad” ve “body count” gibi terimler, bugün sosyal medyada ve flört içeriklerinde hızla yayılırken, aslında çok daha büyük bir ideolojik dönüşümün izlerini taşıyor.

Yeni Trump Mobile Tasarımı ortaya çıktı

Trump Mobile’ın uzun süredir merakla beklenen T1 akıllı telefonu, ilk kez gerçek görüntüleri ve güncellenmiş özellikleriyle ortaya çıktı ve cihazın önceki tanıtımlara göre oldukça farklı bir tasarım ve donanımla geliştirildiği görülüyor.