Yeni bir literatür incelemesi, ChatGPT’nin hasta sorularını yanıtlama, klinik önerilerde bulunma ve semptomları kategorize etme yeteneklerini analiz ediyor. Çalışma, yapay zeka modelinin tıbbi kullanımdaki potansiyelini ve sınırlamalarını ortaya koyuyor.
Detaylar haberimizde…
ChatGPT, ticari bir satıcı olan OpenAI tarafından geliştirilen ve popüler büyük dil modellerinden (LLM) biri olan yapay zeka (AI) sohbet robotu bildiğimiz gibi. Denetimli öğrenme kullanarak insan benzeri sorgular oluşturma becerisi mevcut. Son yıllarda ChatGPT, tıp alanında ilgi çekiyor. Ancak, hasta bakımındaki faydasını belirlemek için doğruluğunun dikkatle değerlendirilmesi gerekli.
Araştırma Metodolojisi ve Kapsam
Bu literatür incelemesi, ChatGPT‘nin klinik karar vermedeki doğruluğu ile ilgili araştırma makalelerini belirlemeyi amaçladı. PubMed veri tabanında “ChatGPT,” “doğruluk” ve “klinik karar verme” arama terimleri kullanılarak bir arama gerçekleşti. Kapsamlı bir veri tabanı olması nedeniyle sadece PubMed seçildi. Çalışmaya, ChatGPT’nin klinik karar vermeyle ilgili doğruluğunu test eden, Amerika Birleşik Devletleri içinde yürütülen, son beş yıl içinde (2019-2024) yayınlanan ve İngilizce olan çalışmalar dahil edildi. Sistematik incelemeler, meta-analizler ve görüş yazıları kapsam dışı bırakıldı. Veri tabanı araması 125 sonuç verdi. Üç yinelenen kayıt çıkarıldıktan sonra, Covidence çevrimiçi tarama yazılımı kullanılarak başlık ve özet taraması yapıldı, 50 çalışma tam metin taraması için kaldı. Bir çalışmanın alınamaması üzerine 49 makale tam metin taramasından geçirildi, bunlardan 40’ı alakasızlık (n=35), çalışma türü (n=2) ve ABD dışındaki konum (n=3) nedeniyle hariç tutuldu. Kalan dokuz makale için tematik analiz yapıldı.
İncelenen dokuz makalenin detaylı bir değerlendirmesi, ChatGPT’nin (1) hastaların SSS’lerini doğru yanıtlayıp yanıtlayamayacağını, (2) klinik önerilerde bulunup bulunamayacağını ve (3) hasta semptomlarını etkili bir şekilde kategorize edip edemeyeceğini inceledi. Hasta semptomlarının kategorizasyonu, klinisyenin tanısı ve bunun triyaj gibi önceliklendirmedeki uygunluğu gibi yönleri içeriyor.
Bulgular: Değişken Doğruluk Seviyeleri
İncelenen dokuz çalışmanın analizi, ChatGPT’nin daha karmaşık olmayan senaryolarda SSS’leri yanıtlayabildiğini, öneriler sunabildiğini ve semptomları kategorize edebildiğini gösteriyor. Ancak, klinik doğruluğu %20 ile %95 arasında değişiklik gösteriyor. Bu değişken doğruluk, ChatGPT’yi bağımsız bir bakım noktasında ürün olarak uygunsuz kılıyor.
- Sıkça Sorulan Soruları Yanıtlama (SSS): İncelenen üç çalışma, ChatGPT’nin cerrahi prosedürlerle ilgili SSS’lere yanıt verme yeteneğini araştırdı. Mika ve diğerleri (2023), total kalça artroplastisi (THA) ile ilgili sorularda ChatGPT yanıtlarının genellikle olgusal olmasına rağmen, %70’inin orta düzeyde açıklama gerektirdiğini, %20’sinin ise mükemmel olarak değerlendirildiğini buldu. Dubin ve diğerleri (2024), ChatGPT’nin THA yanıtlarını artroplasti eğitimi almış hemşirelerin yanıtlarıyla karşılaştırdı. ChatGPT’nin hemşireleri iki yüzde puanı (%95’e karşı %93) geride bırakarak uygun yanıtlar verdiği belirlendi. Ayrıca, hastaların %79’u yapay zekaya güvenme konusunda belirsizlik ifade ederken, %69’u ChatGPT yanıtlarını hemşirelerin yanıtlarına tercih etti (Dubin et al.). Li ve diğerleri (2024) ise ChatGPT 4.0’ın perioperatif abdominoplasti SSS’lerine kapsamlı ve insan benzeri yanıtlar verdiğini, ancak plastik cerrahide gereken kişiselleştirilmiş yapıdan yoksun olduğunu buldu. Bu çalışmalar, metodolojilerde farklılıklar gösterse de, ChatGPT’nin çoğu durumda doğru ve tutarlı yanıtlar sağladığını gösteriyor.
- Klinik Önerilerde Bulunma: Üç çalışma, ChatGPT’nin klinik önerilerde bulunma yeteneğine odaklandı. Xie ve diğerleri (2023), ChatGPT’nin rinoplasti hastaları için klinik asistan olarak potansiyelini değerlendirdi. Riskleri, faydaları ve sonuçları etkili bir şekilde özetlemesine rağmen, açık ve kapalı rinoplasti prosedürleri arasındaki teknik nüansları ayırt etmekte zorlandığını, kişiselleştirilmiş öneriler sunamadığı belirtildi. Hermann ve diğerleri (2023), ChatGPT 3.5’in serviks kanseri önleme (%91.7) ve sağkalım (%93.8) önerilerinde başarılı olduğunu, ancak tedavi (%79.4) ve tanı (%33.3) konularında zorlandığını buldu. Gajjar ve diğerleri (2024), nöroşirürjikal öneriler bağlamında (omurga, kraniyal ve genel nöroşirürji) ChatGPT versiyonları 3.0, 3.5 ve 4.0’ın yanıtlarını karşılaştırdı. Tüm versiyonlarda benzer doğruluk seviyeleri bulundu. Özellikle 3.5 versiyonunun derecelendirme doğruluğu ve yardımseverlik açısından marjinal olarak daha yüksek, 4.0’ın ise en yüksek anlaşılırlığa sahip olduğu belirtildi. Ancak, tüm versiyonların Flesch Okuma Kolaylığı testi kullanılarak okunması zor bulunduğu, bunun da sağlık okuryazarlığı düşük kullanıcılar için bir faktör olduğu ifade edildi.
- Hasta Semptomlarını Kategorize Etme: Üç çalışma, ChatGPT’nin hasta semptomlarını kategorize etme veya triyaj yapma yeteneğini analiz etti. Rao ve diğerleri (2023), meme kanseri ve meme ağrısı klinik endikasyonlarını sınıflandırmada ve uygun görüntüleme modalitelerini önermede ChatGPT’nin radyolojik karar verme yeteneğini değerlendirdi. Bu çalışma, ChatGPT 4.0’ın meme kanseri tarama önerileri için %98.4 doğruluk oranına sahipken, versiyon 3.5’in %88.9 doğruluk sergilediğini gösterdi. Benzer şekilde, meme kanseri ağrısı önerilerinde versiyon 4.0, sırasıyla %77.7 ve %58.3 doğruluk oranlarıyla versiyon 3.5’i geride bıraktı. Ayoub ve diğerleri (2023), kardiyoloji, pulmonoloji ve nöroloji alanlarında ChatGPT’nin triyaj ve tanı yeteneklerini belirlemeye çalıştı. ChatGPT’nin diferansiyel tanıda %88 gibi yüksek bir doğruluk seviyesi gösterdiği, ancak yanıtlarının genellikle eksik olduğu belirtildi. Son olarak, Dabbas ve diğerleri (2024), nöro-lokalizasyon kapasitesini inceledi. 47 vaka senaryosu sunarak ChatGPT’nin vakaların %69.6’sında “tamamen doğru” ve %15.2’sinde “çoğunlukla doğru” yanıtlar verdiğini belirledi. Araştırmacıların doğru yanıtları formüle etmesi için ChatGPT’ye altı durumda ipucu vermesi gerektiği de kaydedildi.
ChatGPT‘nin Sağlık Hizmetlerindeki Rolü ve Sınırlamaları
Önceki araştırmalara dayanarak, ChatGPT’nin farklı tıbbi uzmanlık alanlarında değişken performans seviyeleri sergilediği gözlendi. Bu literatür incelemesindeki dokuz seçilmiş çalışmada doğruluğu %20 ile %95 arasında değişiklik gösteriyor. Bu durum, ChatGPT’nin otonom olarak klinik kararlar alması, hasta semptomlarını triyaj yapması veya hasta sorularını (SSS) bağımsız olarak yanıtlamadaki sınırlılığını gösteriuor. Ancak, belirli ayarlarda, ChatGPT’nin geleneksel bakım içinde klinik karar vermeyi desteklemek için değerli bir araç olabileceği ortaya çıkıyor.
Mika ve diğerleri (2023) ile Ayoub ve diğerleri (2023) tarafından yapılan çalışmalar, ChatGPT’nin özellikle kardiyolojide diferansiyel tanılar sağlama ve THA ile ilgili SSS’leri yanıtlama konusunda dikkate değer doğruluk oranları gösterdiğini ortaya koyuyor. Ancak, ChatGPT tanı doğruluğu için yüksek puanlar almasına rağmen, yanıtlarının eksiksizliği konusunda zorluk yaşıyor. Bu değişkenlik, ChatGPT’nin faydalı bir tanısal destek aracı olabileceğini, ancak insan gözetimi olmadan kapsamlı klinik karar verme için henüz uygun olmadığını gösteriyor. Bu performans farklılıkları, ChatGPT’nin bilgi tabanının doğru ve güvenilir kalmasını sağlamak için alana özgü optimizasyon ihtiyacının altını çiziyor.
Hasta Güveni ve Dijital Beceriler
Hasta güveni, incelenen çalışmalarda yaygın, bazen tutarsız bir faktör olarak görünüyor. Dubin ve diğerleri (2024) tarafından yapılan araştırma, hastaların çoğunluğunun ChatGPT’nin ameliyat sonrası talimatlarına uymaya daha eğilimli olduğunu, çünkü THA ile ilgili daha doğru yanıtlar verdiğini belirtti. Ancak, hastaların yaklaşık %80’i yapay zeka tabanlı önerilere tamamen güvenme konusunda belirsizliğini korudu. Bu bulgu, hastaların teknolojiye tam güven duymasının karmaşık doğasını ve bunun bilginin sunumu yerine kaynağın doğal güvenilirliğinden etkilenebilmesini vurguluyor. Ayrıca, Gıda ve İlaç İdaresi (FDA) henüz LLM’lerin sağlık hizmetlerinde kullanımına izin vermiyor.
Yapay zekanın sağlık hizmetleri ortamlarına başarılı bir şekilde entegrasyonu, onun sağlık hizmeti sağlayıcılarının yerine geçecek bir araç değil, karar destek aracı olarak rolünü tanımaya bağlı. Nöroloji ve jinekolojik onkoloji gibi uzmanlık alanlarındaki ChatGPT’yi inceleyen çalışmalar, ChatGPT’nin performansının tatmin edici ancak uzmanların yerini almaya yeterli olmadığını gösteriyor. Örneğin, ChatGPT’nin jinekolojik onkoloji ile ilgili sorulara yanıt vermedeki doğruluğu, kapsamlı yanıtlar için sadece yaklaşık %53 idi, bu da terminal hastalık bağlamlarında gereken standartların gerisinde. Gajjar ve diğerleri (2024) tarafından yapılan çalışmada da, ChatGPT’nin daha yüksek doğruluk elde etmesi için araştırmacılardan ipuçlarına ihtiyaç duyduğu görüldü. Ayrıca, başka bir çalışma (Ayoub et al., 2023), ChatGPT’nin tam bir diferansiyel tanı sağlama işlevselliğinden yoksun olduğunu ve hasta bakımına fayda sağlamadan önce klinisyenlerden daha fazla girdi gerektireceğini buldu.
Yapay zeka araçlarının teknik yeteneklerini geliştirmenin yanı sıra, dijital becerilerdeki eşitsizlikler bu teknolojilerin önemli bir zayıflığı olarak kalıyor. Mevcut yapay zeka araçları, kullanıcıların dijital okuryazarlık düzeylerinden bağımsız olarak genellikle benzer yanıtlar veriyor. Gajjar ve diğerleri (2024) tarafından yapılan ChatGPT’nin nöroşirürjideki yanıtlarının analizi, ChatGPT’nin yüksek doğrulukta bilgi sağlayabilmesine rağmen, dilinin karmaşıklığının sağlık okuryazarlığı düşük hastalar için engeller yarattığını ortaya koyuyor. Bu durum, yapay zeka destek araçlarının faydalarının tüm hasta popülasyonlarına eşit şekilde dağıtılamayabileceği için eşit sağlık hizmeti erişimine bir engel teşkil ediyor. Bu teknolojilerin sağlık hizmetlerindeki eşitsizlikleri daha da kötüleştirmemesi için kişiye özel ve erişilebilir bilgilere ihtiyaç duyulur.
Gelecek Araştırma Önerileri
Gelecekteki araştırmalar, ChatGPT gibi yapay zeka araçlarının farklı kullanıcılar (hastalar ve sağlık hizmeti sağlayıcıları dahil) için etkinliğini değerlendirmek üzere sağlam ve standartlaştırılmış ölçüm yöntemleri geliştirmeye odaklanmalı. İlk olarak, yapay zeka tarafından üretilen yanıtların doğruluğunu ve bunların netliğini, anlaşılırlığını ve geniş hasta popülasyonlarında pratik uygulanabilirliğini değerlendiren kapsamlı metrikler oluşturmak kritik önem taşır. Bu metrikler, yapay zeka çözümlerinin mevcut ve erişilebilir olmasını sağlamak için dijital sağlık okuryazarlığının farklı seviyelerini hesaba katmalı.
Ayrıca, yapay zeka entegrasyonunun hasta sonuçları ve sağlayıcı memnuniyeti üzerindeki uzun vadeli etkilerini değerlendirmek için boylamsal çalışmalara odaklanılmalı. Bu, yapay zekanın hasta güvenini, tıbbi önerilere uyumu ve sağlık hizmetleri ortamlarındaki genel deneyimi artırıp artırmadığının incelenmesini içerir. Ek olarak, gelecekteki araştırmalar, özellikle kararların hayat değiştirebileceği yüksek riskli ortamlarda yapay zeka dağıtımının etik ve psikolojik çıkarımlarını keşfetmeli. Bu faktörleri ölçmek için kapsamlı çerçeveler geliştirmek ve doğrulamak, sağlık hizmetlerindeki yapay zeka gelişmelerinin güvenli, etkili ve tüm paydaşların ihtiyaçlarıyla uyumlu olmasını sağlamaya yardımcı olacaktır.
Son olarak, yapay zeka araçlarında şeffaflık için önemli bir ihtiyaç mevcut. Araştırmacılar, yapay zeka karar verme süreçlerini açıklığa kavuşturmak için yenilikçi yöntemler araştırmalı; örneğin, her oluşturulan öneri veya yanıt için net ve özlü gerekçeler sunan açıklanabilir algoritmalar benimsenmeli. Güven eksikliği ve yapay zekanın optimal olmayan kullanımı, büyük ölçüde “kara kutu” yapay zeka sistemlerinin şeffaflık eksikliğine bağlanır. Kara kutu sistemler, bir modelin bir karara nasıl vardığını açıklamaz, bu da açıklanabilirlik ve yorumlamada zorluklara katkıda bulunur. Bu şeffaflık eksikliği güveni zayıflatır ve yapay zekanın klinik pratiğe entegrasyonunu engeller.
Sınırlamalar
Bu literatür incelemesine dahil edilen çalışmalar ChatGPT 3.0, 3.5 ve 4’ü kullandı. Gajjar ve diğerleri (2024) tarafından yapılan çalışmada, ChatGPT’nin farklı versiyonları farklı doğruluk seviyeleri sergileyebiliyor. Sonuçların karşılaştırılabilirliği için ideal olarak, ChatGPT’nin tek bir versiyonu incelenmeli.
ChatGPT’nin doğruluğundaki diğer bir sınırlama, eğitiminin kapsamı. Performansı, daha kapsamlı ve hedefli eğitimle iyileşir. Bu nedenle, ChatGPT zamanla klinik önerilerde daha iyi performans sergileyebilir. Ancak yanıtları, yeterli eğitim olmadan kesinlik ve güvenilirlik açısından eksik kalabilir. Bu durum, bu literatür incelemesine dahil edilen çalışmalarda yüzeysel sonuçlara yol açmış olabilir. ChatGPT’nin klinik karar vermede zamanla ne kadar doğru olabileceğini anlamak için daha fazla araştırma yapılmalıdır. Ayrıca, bu alandaki gelecekteki literatür incelemeleri, Science Direct veya Cumulative Index of Nursing and Allied Health Literature (CINAHL) gibi diğer veri tabanlarını da içermeli.
Derleyen: Enis Yabar





