Ana SayfaYapay ZekaYapay Zekâ Eğitim Verilerinden Romanların Neredeyse Birebir Kopyasını Üretebiliyor

Yapay Zekâ Eğitim Verilerinden Romanların Neredeyse Birebir Kopyasını Üretebiliyor

Yayımlandı:

- Bu Alana Reklam Vermek İçin: bilgi@dijitaliyidir.comspot_img

Son araştırmalar, büyük yapay zekâ modellerinin eğitim verilerinden kitapların içeriğini neredeyse kelimesi kelimesine kopyalayabildiğini ve bu durumun telif hakları ile ilgili ciddi tartışmalara yol açtığını ortaya koyuyor.

Detaylar haberimizde…

Dünyanın önde gelen yapay zekâ modelleri, çok satan romanların neredeyse kelimesi kelimesine kopyalarını üretmeye yönlendirilebiliyor. Bu durum, sektörün sistemlerinin telif hakkıyla korunan eserleri “saklamadığı” iddiasına dair yeni soru işaretleri doğuruyor.

Son dönemde yayımlanan bir dizi çalışma, OpenAI, Google, Meta, Anthropic ve xAI tarafından geliştirilen büyük dil modellerinin (LLM) eğitim verilerinin sanılandan çok daha fazlasını ezberlediğini ortaya koydu.

kopya

Yapay Zekâ ve Kitap Kopyalama Tartışmaları

Yapay zekâ ve hukuk uzmanları, Financial Times’a yaptıkları açıklamada, bu “ezberleme” yeteneğinin dünya çapında açılan onlarca telif davasında AI şirketlerinin savunmasını zayıflatabileceğini söyledi. Çünkü şirketler, LLM’lerin telifli eserlerden “öğrendiğini” ancak bu eserlerin kopyalarını saklamadığını savunuyor.

Imperial College London’da uygulamalı matematik ve bilgisayar bilimi profesörü Yves-Alexandre de Montjoye, “Ezberlemenin sanılandan daha büyük bir mesele olduğuna dair artan kanıtlar var” dedi.

Yapay zekâ şirketleri uzun süredir ezberleme olmadığını iddia ediyor. Google, 2023 yılında ABD Telif Hakkı Ofisi’ne gönderdiği mektupta, “Modelin içinde eğitim verilerinin — metin, görsel ya da başka formatlarda — herhangi bir kopyası bulunmamaktadır” ifadelerini kullanmıştı.

Sektör ayrıca, telifli kitaplarla model eğitmenin “adil kullanım” kapsamında olduğunu savunuyor ve teknolojinin orijinal eseri anlamlı biçimde dönüştürdüğünü öne sürüyor.

Ancak geçen ay yayımlanan bir araştırma, Stanford ve Yale üniversitelerindeki araştırmacıların OpenAI, Google, Anthropic ve xAI modellerini stratejik biçimde yönlendirerek 13 kitaptan binlerce kelime üretmeyi başardığını gösterdi. Bu kitaplar arasında A Game of Thrones, The Hunger Games ve The Hobbit de bulunuyor.

Araştırmacılar, modellerden bir kitaptaki cümleleri tamamlamalarını isteyerek test yaptı. Gemini 2.5, Harry Potter and the Philosopher’s Stone kitabının yüzde 76,8’ini yüksek doğruluk oranıyla yeniden üretirken, Grok 3 yüzde 70,3’ünü üretebildi.

Ayrıca araştırmacılar, Anthropic’in Claude 3.7 Sonnet modelini “jailbreak” yöntemiyle yönlendirerek neredeyse tamamını kelimesi kelimesine çıkarabildi. Jailbreaking, kullanıcıların LLM’lerin güvenlik önlemlerini göz ardı ederek metin üretmesini sağlıyor.

Bu bulgular, geçen yılki bir çalışmayı da destekliyor; o çalışmada Meta’nın Llama gibi “açık” modellerinin eğitim verilerindeki belirli kitapların büyük bölümlerini ezberlediği ortaya konmuştu.

Yale Üniversitesi’nden araştırmacı A. Feder Cooper, “Güvenlik önlemleri olmasına rağmen modellerin tüm metinleri ezberleyebilmesi şaşırtıcıydı” dedi.

Araştırmacılar, LLM’lerin neden eğitim verilerindeki metinleri ezberlediğini henüz çözebilmiş değil. Ayrıca, ürettikleri çıktılarda eğitim verisinin ne kadarının göründüğü de belirsizliğini koruyor.

Bu ezberleme özelliği, sağlık ve eğitim gibi alanlarda da ciddi sonuçlar doğurabilir; çünkü eğitim verilerinin sızması, gizlilik ve mahremiyet sorunlarına yol açabilir.

Hukuk uzmanları, bunun AI şirketleri için telif ihlali açısından önemli bir sorumluluk yaratabileceğini ve modellerin eğitimi ile geliştirme maliyetleri üzerinde de etkisi olabileceğini belirtiyor.

Pinsent Masons hukuk firmasından fikri mülkiyet ortağı Cerys Wyn Davies, “Araştırma bulguları, AI modelinin telifli eserleri saklamadığı veya çoğaltmadığı savunanlar için bir meydan okuma oluşturabilir” dedi.

LLM’lerin eğitim verilerini ezberleyip ezberlemediği, son dönemdeki telif davalarında önemli bir faktör oldu.

ABD’de geçen yıl bir mahkeme, Anthropic’in LLM’lerini bazı telifli içeriklerle eğitmesini “dönüştürücü” (transformative) olduğu gerekçesiyle adil kullanım olarak değerlendirdi. Ancak korsan eserleri saklamanın “doğası gereği telif ihlali” olduğu kararıyla şirket, davayı 1,5 milyar dolar ödeyerek çözmek zorunda kaldı.

Almanya’da ise geçen yılın Kasım ayında OpenAI’in telif ihlali yaptığına karar verildi; çünkü model şarkı sözlerini ezberlemişti. GEMA tarafından açılan dava, AB’de emsal bir karar olarak kabul edildi.

Husch Blackwell hukuk firmasından ortak Rudy Telscher, “Bir kitabı jailbreak yapmadan tamamen çoğaltmak açıkça telif ihlali” dedi. Ancak bunun ne kadar yaygın olduğunun ve AI modellerinin dolaylı sorumluluk taşıyıp taşımayacağının tartışmalı olduğunu ekledi.

Anthropic, Stanford ve Yale araştırmasında kullanılan jailbreak yönteminin normal kullanıcılar için pratik olmadığını ve metni çıkarmanın, içeriği satın almaktan daha fazla çaba gerektirdiğini belirtti. Şirket ayrıca, modelin belirli veri kümelerinin kopyalarını saklamadığını, eğitim verisindeki kelime ve diziler arasındaki örüntü ve ilişkilerden öğrenme yaptığını vurguladı.

xAI, OpenAI ve Google yorum taleplerine yanıt vermedi.

Imperial College’dan de Montjoye, AI laboratuvarlarının eğitim verilerinin çıkarılmasını önlemek için önlemler koymuş olmasının sorunun farkında olduklarını gösterdiğini söyledi.

University of Chicago’dan bilgisayar bilimleri profesörü Ben Zhao ise, AI laboratuvarlarının gerçekten ileri düzey modeller yaratmak için telifli içerik kullanmaya ihtiyaçları olup olmadığını sorguladı.

Zhao, “Teknik olarak yapılabilir olup olmaması bir yana, bunu yapmalı mıyız hâlâ tartışılmalı. Hukuki taraf sonunda ayakta durmalı ve bu sürecin hakemi olmalı” dedi.

Derleyen: Damla Şayan

Günde sadece 1 TL'ye abone olarak tüm içeriklerimize sınırsız erişebilir ve bağımsız haberciliğe destek olabilirsiniz! Hemen Abone Ol

Son Eklenenler

[PazarEki] Yayıncılığın Trafik Krizi – 4: Türkiye Tablosu ve Okurun Gücü

[PazarEki] serimizin finalinde Türkiye'ye dönüyoruz: Reklama bağımlı, üyelik kültürü zayıf bir ekosistem krizi nasıl karşılar? Ve denklemin en güçlü aktörü olan okura düşen nedir?

[PazarEki] Yayıncılığın Trafik Krizi – 3: Yayıncılar Ne Yapıyor? Üç Çıkış Yolu

Yayıncılar trafik krizine teslim olmuyor. [PazarEki] serimizin üçüncü bölümünde dünyadan üç çıkış stratejisini inceliyoruz: okurla doğrudan bağ, yapay zekâ şirketleriyle lisans masası ve arama dışı vitrinler.

[PazarEki] Yayıncılığın Trafik Krizi – 2: Sıfır Tıklama Ekonomisi ve İçerik Kuraklığı

Okur siteye uğramayınca ne kaybolur? [PazarEki] serimizin ikinci bölümünde sıfır tıklama ekonomisini inceliyoruz: Trafik kesilince küçülen haber odaları ve yapay zekânın kendi dalını kesme riski.

[PazarEki] Yayıncılığın Trafik Krizi – 1: Otuz Yıllık Sözleşme Nasıl Bozuldu?

Google araması artık link listesi değil, yapay zekâ cevabı. [PazarEki] serimizin ilk bölümünde internetin 30 yıllık "içerik karşılığı trafik" sözleşmesinin kuruluşunu ve çöküşünü kronolojisiyle anlatıyoruz.

Buna benzer diğer içerikler

[PazarEki] Yayıncılığın Trafik Krizi – 4: Türkiye Tablosu ve Okurun Gücü

[PazarEki] serimizin finalinde Türkiye'ye dönüyoruz: Reklama bağımlı, üyelik kültürü zayıf bir ekosistem krizi nasıl karşılar? Ve denklemin en güçlü aktörü olan okura düşen nedir?

[PazarEki] Yayıncılığın Trafik Krizi – 3: Yayıncılar Ne Yapıyor? Üç Çıkış Yolu

Yayıncılar trafik krizine teslim olmuyor. [PazarEki] serimizin üçüncü bölümünde dünyadan üç çıkış stratejisini inceliyoruz: okurla doğrudan bağ, yapay zekâ şirketleriyle lisans masası ve arama dışı vitrinler.

[PazarEki] Yayıncılığın Trafik Krizi – 2: Sıfır Tıklama Ekonomisi ve İçerik Kuraklığı

Okur siteye uğramayınca ne kaybolur? [PazarEki] serimizin ikinci bölümünde sıfır tıklama ekonomisini inceliyoruz: Trafik kesilince küçülen haber odaları ve yapay zekânın kendi dalını kesme riski.