- Yapay zeka (AI) popülaritesinin zirvesine ulaşırken araştırmacılar, endüstrinin güçlü AI sistemlerini çalıştıran eğitim verilerinin tükeniyor olabileceği konusunda endişeli.
- Bu, yapay zeka modellerinin (özellikle de büyük dil modellerinin) büyümesini yavaşlatabilir ve hatta yapay zeka devriminin gidişatını bile değiştirebilir.
Güçlü ve yüksek kaliteli yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyaç var. Örneğin ChatGPT, 570 gigabaytlık metin verisi; yani yaklaşık 300 milyar kelime ile eğitildi.
Benzer şekilde; DALL-E, Lensa ve Midjourney gibi birçok yapay zeka görüntü oluşturma uygulamasının arkasında bulunan algoritma, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi üzerinde eğitildi. Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretir.
Eğitim verilerinin kalitesi de önem arz ediyor. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilerin kaynağına ulaşmak kolay ancak yüksek performanslı yapay zeka modellerini eğitmek için yeterli değil.
Sosyal medya platformlarından alınan metinler önyargılı olabilir ya da model tarafından kopyalanabilecek içerik dezenformasyonlu veya yasa dışı olabilir. Örneğin Microsoft, yapay zeka robotunu Twitter içeriğini kullanarak eğitmeye çalıştığında ırkçı ve kadın düşmanı çıktılar üretmeyi öğrendi.
Yapay zeka geliştiricilerinin kitaplardan, çevrim içi makalelerden, bilimsel makalelerden, Wikipedia’dan ve belirli filtrelenmiş web içeriklerinden metinler gibi yüksek kaliteli içerikleri aramasının nedeni bu. Google Asistan, daha sohbete dayalı hâle gelmek için kendi kendini yayımlayan site Smashwords’ten alınan 11.000 romantik roman üzerinde eğitildi.
Yapay zeka endüstrisi, yapay zeka sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor; bu sayede artık ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz. Araştırmalar, çevrim içi veri stoklarının yapay zekayı eğitmek için kullanılan veri kümelerinden çok daha yavaş büyüdüğünü gösteriyor.
Geçen yıl yayımlanan bir makalede bir grup araştırmacı, mevcut yapay zeka eğitim eğilimleri devam ederse 2026’dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü. Ayrıca düşük kaliteli dil verilerinin 2030 ile 2050 arasında, düşük kaliteli görüntü verilerinin ise 2030 ile 2060 arasında tükeneceğini tahmin ediyorlar.
Muhasebe ve danışmanlık grubu PwC’ye göre yapay zeka, 2030 yılına kadar dünya ekonomisine 15,7 trilyon dolar katkıda bulunabilir. Ancak kullanılabilir verilerin tükenmesi, gelişimini yavaşlatabilir. Yapay zeka modellerinin gelecekte nasıl gelişeceğine dair pek çok bilinmeyenin yanı sıra veri eksikliği riskini gidermenin birkaç yolu var.
Önümüzdeki yıllarda muhtemelen daha az veri ve daha az hesaplama gücü kullanarak yüksek performanslı yapay zeka sistemlerini eğitebilecekler. Bu, aynı zamanda yapay zekanın karbon ayak izinin azaltılmasına da yardımcı olacak. Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yapay zekayı kullanmak. Başka bir deyişle; geliştiriciler, ihtiyaç duydukları verileri kendi yapay zeka modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler.
Pek çok proje hâlihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerik kullanıyor. Bu, gelecekte daha yaygın hâle gelecek.
Geliştiriciler, aynı zamanda büyük yayıncılar gibi ücretsiz, çevrim içi alanın dışındaki içerikleri de arıyorlar. Dijital olarak kullanıma sunulan bu veriler, yapay zeka projeleri için yeni bir veri kaynağı sağlayabilir.
Dünyanın en büyük haber içeriği sahiplerinden biri olan News Corp, yakın zamanda AI geliştiricileriyle içerik anlaşmaları için pazarlık yaptığını söyledi. Bu tür anlaşmalar, yapay zeka şirketlerini eğitim verileri için ödeme yapmaya zorlayacak.
İçerik oluşturucular, içeriklerinin yapay zeka modellerini eğitmek için izinsiz kullanılmasını protesto etti ve Microsoft, OpenAI ve Stability AI gibi bazı şirketlere dava açıldı. Çalışmalarının karşılığını almak, yaratıcılar ile yapay zeka şirketleri arasındaki güç dengesizliğinin bir kısmının onarılmasına yardımcı olabilir.
Derleyen: Damla Şayan