Yeni bir araştırmaya göre, OpenAI, Grok ve diğer önde gelen yapay zeka şirketleri, sağlık sorularına verilen yanıtlardaki tıbbi sorumluluk reddi beyanlarını büyük ölçüde kaldırdı. Bu durum, yanlış tıbbi tavsiyelerin gerçek dünyada zarara yol açma riskini artırıyor.
Detaylar haberimizde…
Yapay zeka şirketlerinin, sağlık sorularına verilen yanıtlarda daha önce standart olan tıbbi sorumluluk reddi beyanlarını ve uyarılarını büyük ölçüde kaldırdığı yeni bir araştırma ile ortaya çıktı. Araştırmaya göre, birçok önde gelen yapay zeka modeli artık sadece sağlık sorularını yanıtlamakla kalmıyor, aynı zamanda takip soruları soruyor ve teşhis girişiminde bulunuyor. Yazarlar, bu uyarıların, yeme bozukluklarından kanser teşhislerine kadar her konuda yapay zekaya soru soran insanlar için önemli bir hatırlatma işlevi gördüğünü ve bunların yokluğunun, yapay zeka kullanıcılarının güvensiz tıbbi tavsiyelere daha fazla güvenme olasılığını artırdığını belirtiyor.
Araştırmanın Yöntemi ve Bulguları
Çalışma, Stanford Üniversitesi Tıp Fakültesi’nde Fulbright bursiyeri olan Sonali Sharma liderliğinde yürütüldü. Sharma, 2023 yılında yapay zeka modellerinin mamogramları ne kadar iyi yorumlayabildiğini değerlendirirken, modellerin her zaman tıbbi tavsiye konusunda kendilerine güvenilmemesi gerektiğini belirten sorumluluk reddi beyanları içerdiğini fark etti. Hatta bazı modeller görüntüleri yorumlamayı tamamen reddederek “Ben doktor değilim” yanıtını veriyordu.
Sharma, “Ancak bu yıl bir gün,” diyor, “hiçbir uyarı yoktu.” Daha fazlasını öğrenmek isteyen Sharma, 2022’ye kadar piyasaya sürülen OpenAI, Anthropic, DeepSeek, Google ve xAI’dan toplam 15 modeli test etti. Bu testte, modellerin 500 sağlık sorusunu (hangi ilaçların birleştirilebileceği gibi) nasıl yanıtladıkları ve pnömoni gibi durumları gösterebilecek 1.500 tıbbi görüntüyü (göğüs röntgenleri gibi) nasıl analiz ettikleri incelendi.
arXiv’de yayınlanan ve henüz hakem değerlendirmesinden geçmeyen sonuçlar şaşırtıcıydı: 2025 modellerinden gelen çıktıların %1’inden daha azı tıbbi bir soruyu yanıtlarken uyarı içeriyordu. Bu oran, 2022’de %26’nın üzerindeydi. Tıbbi görüntüleri analiz eden çıktıların ise sadece %1’den biraz fazlası uyarı içeriyordu. Bu oran da önceki dönemdeki %20’lik seviyeden düşüş gösteriyor. (Bir çıktının uyarı içerdiği kabul edilmesi için, yapay zekanın tıbbi tavsiye vermeye yetkili olmadığını bir şekilde kabul etmesi gerekiyordu, sadece bir doktora danışmayı teşvik etmesi değil.)
Sorumluluk Reddi Beyanlarının Amacı ve Yokluğunun Riskleri
Deneyimli yapay zeka kullanıcıları için bu sorumluluk reddi beyanları bir formalite gibi gelebilir ve insanlar yapay zeka modellerinden bunları tetiklememek için yollar buluyor. Reddit’teki kullanıcılar, örneğin, tıbbi görüntülerin bir film senaryosunun veya bir okul ödevinin parçası olduğunu söyleyerek ChatGPT’nin röntgen veya kan testlerini analiz etmesini sağlamanın yollarını tartıştı.
Ancak Stanford’da dermatolog ve biyomedikal veri bilimi yardımcı doçenti olan Roxana Daneshjou, bunların belirgin bir amaca hizmet ettiğini ve ortadan kalkmalarının bir yapay zeka hatasının gerçek dünyada zarara yol açma olasılığını artırdığını belirtiyor.
“Yapay zekanın doktorlardan daha iyi olduğunu iddia eden çok sayıda manşet var,” diyor. “Hastalar medyada gördükleri mesajlar karşısında kafaları karışabilir ve sorumluluk reddi beyanları, bu modellerin tıbbi bakım için tasarlanmadığını hatırlatır.”
Yapay Zeka Şirketlerinin Tutumu
Bir OpenAI sözcüsü, şirketin kullanıcı sorgularına yanıt olarak dahil ettiği tıbbi sorumluluk reddi beyanlarının sayısını kasıtlı olarak azaltıp azaltmadığını belirtmekten kaçındı, ancak hizmet şartlarına işaret etti. Bu şartlar, çıktıların sağlık koşullarını teşhis etmeyi amaçlamadığını ve nihai sorumluluğun kullanıcılara ait olduğunu belirtiyor. Anthropic’in bir temsilcisi de şirketin kasıtlı olarak daha az sorumluluk reddi beyanı ekleyip eklemediğini yanıtlamayı reddetti, ancak Claude modelinin tıbbi iddialar konusunda dikkatli olacak ve tıbbi tavsiye vermeyecek şekilde eğitildiğini söyledi. Diğer şirketler MIT Technology Review’ın sorularına yanıt vermedi.
İnsan ve yapay zeka etkileşimini inceleyen ve araştırmaya dahil olmayan MIT araştırmacısı Pat Pataranutaporn, yapay zeka şirketlerinin daha fazla kullanıcı çekmek için rekabet ederken ürünlerine daha fazla güven uyandırmaya çalışıyor olabileceğini belirtiyor.
“İnsanları bu aracın halüsinasyon göreceği veya yanlış tıbbi tavsiye vereceği konusunda daha az endişelendirecek,” diyor. “Kullanımı artırıyor.”
Pataranutaporn, insanların tıbbi tavsiye için yapay zekayı kullanma şekilleri üzerine kendi araştırmasını yürütmüş ve araçlar bu kadar sık yanlış olmasına rağmen sağlık sorularında yapay zeka modellerine genellikle aşırı güvendiklerini bulmuş durumda.
Model Gelişimi ve Güvenlik Endişeleri
Tüm önde gelen yapay zeka modelleri sorumluluk reddi beyanlarında bir düşüş gösterse de, bazıları öne çıktı. DeepSeek, tıbbi sorumluluk reddi beyanları içermezken, Google’ın modelleri genellikle daha fazla uyarı içeriyordu. Elon Musk’ın geçen yıl takipçilerini tıbbi görüntülerini analiz etmek için kullanmaya çağırdığı xAI’nin Grok’u, mamogramları, göğüs röntgenlerini veya dermatoloji taramalarını yorumlaması istendiğinde hiçbir sorumluluk reddi beyanı içermedi. OpenAI’ın GPT-4.5’i de bu sorulara yanıt verirken hiçbir uyarı içermedi.
Teste tabi tutulan 15 model, acil tıbbi sorular veya ilaç etkileşimleri hakkında sorular sorulduğunda ya da laboratuvar sonuçlarını analiz etmeleri istendiğinde en az uyarıyı içeriyordu. Ruh sağlığıyla ilgili sorular sorulduğunda kullanıcılara uyarıda bulunma olasılıkları daha yüksekti – bu, yapay zeka şirketlerinin, özellikle çocukların sohbet robotlarından alabileceği tehlikeli ruh sağlığı tavsiyeleri nedeniyle eleştiri altında olmasından kaynaklanıyor olabilir.
Araştırmacılar ayrıca, yapay zeka modelleri tıbbi görüntülerin daha doğru analizlerini yaptıkça – birden fazla doktorun görüşlerine göre ölçüldüğünde – daha az sorumluluk reddi beyanı içerdiğini buldu. Bu durum, modellerin, ya pasif olarak eğitim verileri aracılığıyla ya da yapımcıları tarafından aktif olarak ince ayar yapılarak, yanıtlarına ne kadar güvendiklerine bağlı olarak sorumluluk reddi beyanları dahil edip etmeyeceklerini değerlendirdiğini gösteriyor. Bu durum, model yapımcılarının bile kullanıcılara chatbot’larına sağlık tavsiyesi için güvenmemelerini söylemesi nedeniyle endişe verici.
Pataranutaporn, modellerin daha güçlü hale geldiği ve daha fazla insanın onları kullandığı bir zamanda bu sorumluluk reddi beyanlarının ortadan kalkmasının, yapay zeka kullanan herkes için bir risk oluşturduğunu belirtiyor.
“Bu modeller, çok sağlam, çok bilimsel görünen bir şeyler üretmede gerçekten iyidir, ancak aslında ne hakkında konuştuklarına dair gerçek bir anlayışları yoktur. Ve model daha sofistike hale geldikçe, modelin ne zaman doğru olduğunu tespit etmek daha da zorlaşıyor,” diyor. “Sağlayıcıdan açık bir kılavuzun olması gerçekten önemlidir.”
Gelecek Araştırma Önerileri ve Şeffaflık İhtiyacı
Gelecekteki araştırmalar, ChatGPT gibi yapay zeka araçlarının farklı kullanıcılar (hastalar ve sağlık hizmeti sağlayıcıları dahil) için etkinliğini değerlendirmek üzere sağlam ve standartlaştırılmış ölçüm yöntemleri geliştirmeye odaklanmalı. Yapay zeka tarafından üretilen yanıtların doğruluğunu ve bunların netliğini, anlaşılırlığını ve geniş hasta popülasyonlarında pratik uygulanabilirliğini değerlendiren kapsamlı metrikler oluşturmak kritik önem taşıyor. Ayrıca, yapay zeka araçlarında şeffaflık için önemli bir ihtiyaç mevcut. Araştırmacılar, yapay zeka karar verme süreçlerini açıklığa kavuşturmak için yenilikçi yöntemler araştırmalı; örneğin, her oluşturulan öneri veya yanıt için net ve özlü gerekçeler sunan açıklanabilir algoritmalar benimsenmeli. Güven eksikliği ve yapay zekanın optimal olmayan kullanımı, büyük ölçüde “kara kutu” yapay zeka sistemlerinin şeffaflık eksikliğine bağlanıyor.
Derleyen: Enis Yabar





