Yapay zeka görüntü oluşturucularının yaratıcılığı, eğitim verilerini taklit etmekle sınırlı değil! Yeni bir araştırma, DALL·E ve Stable Diffusion gibi difüzyon modellerinin yaratıcılığının, teknik “kusurlardan” kaynaklandığını ortaya koyuyor. Peki, bu nasıl oluyor?
Detaylar haberimizde
Yapay Zekanın Yaratıcılık Paradoksu
Yapay zeka (AI), satrançta bizi yenebiliyor, tonlarca metni analiz edebiliyor ve hatta şiir yazabiliyor. Ancak, fiziksel görevlerdeki zorluklara rağmen, özellikle görüntü oluşturma araçları (DALL·E, Imagen, Stable Diffusion) beklenmedik bir yaratıcılık sergiliyor. Bu araçlar, eğitim verilerini kopyalamak için tasarlanmışken, neden yeni ve anlamlı görüntüler üretebiliyor? Paris’teki École Normale Supérieure’den AI araştırmacısı Giulio Biroli, bu durumu “paradoks” olarak niteliyor: “Eğer mükemmel çalışsalardı, sadece ezberlerlerdi. Ama yeni örnekler üretiyorlar.”

Stanford Üniversitesi’nden fizikçi Mason Kamb ve danışmanı Surya Ganguli, 2025 Uluslararası Makine Öğrenimi Konferansı’nda sundukları bir makalede, bu yaratıcılığın difüzyon modellerinin teknik mimarisinden kaynaklandığını iddia ediyor. Araştırma, AI’nin yaratıcılığını matematiksel olarak açıklayan çığır açıcı bir model sunuyor ve insan yaratıcılığına dair ipuçları veriyor.
Stable Diffusion Nedir?
Stable Diffusion, 2022’de yayınlanan , difüzyon tekniklerine dayalı, derin öğrenmeli , metinden görüntüye dönüştürme modelidir . Üretken yapay zeka teknolojisi, Stability AI’nın en önemli ürünüdür ve devam eden yapay zeka patlamasının bir parçası olarak kabul edilmektedir .
Öncelikle metin açıklamalarına bağlı ayrıntılı görüntüler oluşturmak için kullanılır, ancak aynı zamanda iç boyama , dış boyama ve metin istemiyle yönlendirilen görüntü-görüntü çevirileri oluşturma gibi diğer görevlere de uygulanabilir . Geliştirilmesinde Münih Ludwig Maximilian Üniversitesi’ndeki CompVis Grubu ve Runway’den araştırmacılar , Stability’den gelen hesaplamalı bağış ve kar amacı gütmeyen kuruluşlardan gelen eğitim verileri yer aldı.
Kararlı Difüzyon , bir tür derin üretken yapay sinir ağı olan gizli bir difüzyon modelidir . Kodu ve model ağırlıkları kamuya açık olarak yayınlanmıştır ve optimize edilmiş bir sürümü, 2,4 GB VRAM kadar düşük bir GPU ile donatılmış çoğu tüketici donanımında çalışabilir . Bu, yalnızca bulut hizmetleri aracılığıyla erişilebilen DALL-E ve Midjourney gibi önceki tescilli metinden görüntüye modellerden bir sapmayı işaret ediyordu.”
Difüzyon Modelleri ve Yaratıcılığın Kökeni
Difüzyon modelleri, görüntü oluştururken “gürültü giderme” (denoising) sürecini kullanıyor. Bir görüntüyü dijital gürültüye (anlamsız piksel yığınına) çeviriyor, sonra bu gürültüyü yeniden birleştiriyor. Bu süreç, bir tabloyu parçalayıp toz haline getirdikten sonra yeniden inşa etmeye benziyor. Ancak, ortaya çıkan görüntüler genellikle eğitim verilerinden farklı, yeni ve anlamlı oluyor. Peki, bu nasıl mümkün?
Kamb ve Ganguli, yaratıcılığın iki teknik özelliğe bağlı olduğunu keşfetti: yerellik (locality) ve translasyonel eşdeğerlik (translational equivariance).
- Yerellik: Modeller, görüntünün yalnızca bir “yama” (patch) olarak adlandırılan küçük bir bölgesine odaklanıyor. Bu, tüm görüntüyü bir kerede işlemek yerine, küçük parçaları ayrı ayrı ele alıyor.
- Translasyonel Eşdeğerlik: Girdi görüntüsü birkaç piksel kaydırıldığında, model çıktıyı da aynı şekilde kaydırıyor. Bu, görüntülerin tutarlı bir yapıya sahip olmasını sağlıyor.
Bu özellikler, modellerin mükemmel kopyalar üretmesini engelliyor, ancak aynı zamanda yaratıcılığı tetikliyor. Kamb, “Yerellik ve eşdeğerlik, modellerin yerel yamaları bağlamdan bağımsız olarak üretmesine neden oluyor. Bu, yeni kombinasyonların ortaya çıkmasını sağlıyor” diyor.
Devrim Niteliğinde Bir Deney: ELS Makinesi
Kamb ve Ganguli, hipotezlerini test etmek için Eşdeğer Yerel Skor (ELS) adını verdikleri bir matematiksel model geliştirdi. Bu model, eğitilmiş bir difüzyon modeli değil; sadece yerellik ve eşdeğerlik mekaniklerini simüle eden bir denklem seti. ELS makinesi, gürültüye dönüştürülmüş görüntüleri alarak difüzyon modelleriyle (ResNet, UNet) aynı çıktıları üretip üretemeyeceğini test etti.
Sonuçlar şaşırtıcıydı: ELS makinesi, difüzyon modellerinin çıktılarını %90 doğrulukla eşleştirdi. Ganguli, “Bu, makine öğreniminde duyulmamış bir başarı” diyor. Bu bulgu, yaratıcılığın modelin eğitim verilerinden değil, gürültü giderme sürecinin teknik “kusurlarından” kaynaklandığını kanıtlıyor. Örneğin, AI’nin ürettiği “ekstra parmaklı” insan görüntüleri, yerellik nedeniyle modelin daha geniş bağlamı göz ardı etmesinden kaynaklanıyor.
İnsan Yaratıcılığına Yeni Bir Işık
Araştırma, sadece AI’nin değil, insan yaratıcılığının da anlaşılmasına katkı sağlayabilir. Kamb, biyolojideki morfogenez sürecine (hücrelerin organ ve uzuv oluşturmak için kendi kendine organize olması) benzetiyor. İnsan embriyolarında, hücreler yerel sinyallere göre hareket eder ve bazen “ekstra parmak” gibi hatalar üretir. Benzer şekilde, difüzyon modelleri de yerel yamalar üzerine odaklanarak beklenmedik sonuçlar üretiyor.
Georgia Teknoloji Enstitüsü’nden Benjamin Hoover, “İnsan ve AI yaratıcılığı çok farklı olmayabilir. Her ikisi de deneyimlerden ve eksik bilgilerden parçaları birleştiriyor” diyor. İnsanlar, gördükleri, duydukları ve hayal ettikleriyle yeni fikirler üretirken, AI de eğitim verilerini yeniden düzenleyerek yaratıcılık sergiliyor.
Daha Geniş Etkiler ve Tartışmalar
Kamb ve Ganguli’nin çalışması, difüzyon modellerinin “siyah kutusunu” aydınlatıyor, ancak bazı sorular cevapsız kalıyor. Örneğin, büyük dil modelleri (LLM’ler) de yaratıcılık sergiliyor, ancak yerellik ve eşdeğerlik kullanmıyor. Biroli, “Bu önemli bir parça, ama hikayenin tamamı değil” diyor.
Toplumsal Etkiler:
- AI Araştırmaları: Matematiksel bir modelle yaratıcılığın öngörülebilir hale gelmesi, AI geliştiricilerinin daha kontrollü ve etik modeller tasarlamasına yardımcı olabilir.
- Sanat ve Etik: AI’nin yaratıcı çıktıları, sanat dünyasında telif hakkı ve özgünlük tartışmalarını körüklüyor. The Verge’e göre, sanatçılar AI’nin eserlerini “çalmakla” suçluyor.
- Eğitim ve İnovasyon: Bu bulgular, yaratıcılığın mekaniklerini anlamak için eğitimde kullanılabilir. İnsan beyninin yaratıcı süreçlerine dair yeni teoriler geliştirilebilir.
Teknolojik Etkiler:
- Model Optimizasyonu: Yerellik ve eşdeğerliğin yaratıcılıktaki rolü, daha verimli difüzyon modelleri tasarlanmasını sağlayabilir.
- Yeni Uygulamalar: Kreatif AI, reklamcılık, oyun tasarımı ve film prodüksiyonunda daha yaygın kullanılabilir.
Türkiye’de AI ve Yaratıcılık
Türkiye’de AI görüntü oluşturucuları, özellikle reklam ve içerik üretiminde popülerleşiyor. Ancak, yaratıcılık tartışmaları ve etik kaygılar da artıyor. X’te bir Türk sanatçı, “AI’nin sanatımı taklit etmesi rahatsız edici. Bu, yaratıcılığın makineleşmesi mi?” diye sordu. Yerel üniversiteler, AI’nin yaratıcı süreçlerini anlamak için araştırmalara başlıyor, ancak Türkiye’nin veri gizliliği yasaları, bu teknolojilerin kullanımını sınırlayabilir.
Yaratıcılık, Kusurların Güzelliği mi?
Kamb ve Ganguli’nin araştırması, AI’nin yaratıcılığının tesadüfi olmadığını, teknik mimarinin doğal bir sonucu olduğunu gösteriyor. Difüzyon modellerinin yerellik ve eşdeğerlik gibi “kusurları”, yeni ve anlamlı görüntüler üretmelerini sağlıyor. Bu, sadece AI’yi değil, insan yaratıcılığını anlamak için de bir kapı aralıyor. Gelecekte, bu bulgular daha etik ve kontrollü AI sistemleri geliştirmek için kullanılabilir. Sizce AI’nin yaratıcılığı, insan sanatını gölgede bırakır mı, yoksa sadece bir araç mı? Yorumlarınızı bizimle paylaşın!
Kaynaklar: WIRED, Quanta Magazine, The Verge, IEEE Spectrum, X gönderileri






