- Özel şirketlerin bir çoğunda özellikle hukuk alanında yapay zeka kullanımı git gide yaygınlaşıyor.
- Stanford Üniversitesi’nin bu konudaki son araştırması ise yapay zekanın özellikle hukuk gibi muhakeme yeteneği isteyen konularda yeterli seviyede olmadığı yönünde.
- Araştırmaya göre açıkça büyük dil modelleri kullanan yapay zeka bir çok zaman “uydurma” ve “güvensiz” bilgiler verebiliyor.
Büyük dil modelleri (LLM’ler), kapsamlı bilgi işleme gerektiren görevleri desteklemek için giderek daha fazla kullanılmakta. Birçok şirket, hukukla ilgili araştırmalara yardımcı olmak için LLM’leri ve yapay zeka destekli bilgi erişim sistemlerini kullanan özel araçlar geliştirmiş durumda.
Ancak, Stanford Üniversitesi’ndeki araştırmacılar tarafından yapılan yeni bir çalışma, sağlayıcıların iddialarına rağmen, bu araçların hala önemli oranda uydurma veya açıkça yanlış olan çıktılardan muzdarip olduğunu ortaya koymakta.
Yazarlara göre ilk “Yapay Zeka güdümlü hukuki araştırma araçlarının önceden kaydedilmiş ampirik değerlendirmesi” olan çalışmada, büyük hukuki araştırma sağlayıcılarının ürünleri test edildi ve manuel olarak oluşturulmuş 200’den fazla hukuki sorgu üzerinde OpenAI’nin GPT-4’ü ile karşılaştırıldı. Araştırmacılar, yanlış ve uydurma bilgilerin genel amaçlı sohbet robotlarına kıyasla azalmasına rağmen, yasal Yapay Zeka araçlarının hala endişe verici derecede yüksek bir oranda yanlış ve uydurma bilgilerin gördüğünü tespit etti.
Hukukta Yapay Zeka Kullanımı Diğer Alanlara Göre Daha Zor
Birçok hukuki yapay zeka aracı, yanlış ve uydurma bilgi riskini azaltmak için Erişim Destekli Üretim (RAG) tekniklerini kullanır. Yalnızca eğitim sırasında edindikleri bilgiye dayanan düz LLM sistemlerinin aksine, RAG sistemleri önce bir bilgi tabanından ilgili belgeleri alır ve bunları modele yanıtları için bağlam olarak sağlar. RAG, farklı alanlardaki yanlış ve uydurma bilgileri azaltmak isteyen kuruluşlar için altın standart.
Ancak araştırmacılar, yasal sorguların genellikle bir dizi belgeden alınabilecek tek bir net yanıtı olmadığını belirtiyor. Sistemin zaman içinde birden fazla kaynaktan bilgi bulması gerekebileceğinden, neyin alınacağına karar vermek zor olabilir. Bazı durumlarda, sorgu yeni veya yasal olarak belirsiz ise sorguyu kesin olarak yanıtlayan mevcut bir belge olmayabilir.
Dahası, araştırmacılar yanlış ve uydurma bilgilerin hukuki araştırma bağlamında iyi tanımlanmadığı konusunda uyarıyor. Araştırmacılar çalışmalarında, modelin yanıtının yanlış ya da yanlış temellendirilmiş olması durumunda, yani gerçeklerin doğru olduğu ancak tartışılan hukuki vaka bağlamında geçerli olmadığı durumlarda, bu yanıtı yanlış ve uydurma bilgiler olarak değerlendiriyor. “Başka bir deyişle, bir model yanlış bir beyanda bulunursa veya bir kaynağın bir beyanı desteklediğini yanlış bir şekilde iddia ederse, bu bir şekilde yanlış ve uydurma bilgilere sebep olur” diye yazıyorlar.
Çalışma ayrıca hukukta belge alaka düzeyinin yalnızca metin benzerliğine dayanmadığına, çoğu RAG sisteminin bu şekilde çalıştığına dikkat çekiyor. Sadece metinsel olarak alakalı görünen ancak aslında alakasız olan belgelerin geri getirilmesi sistemin performansını olumsuz etkileyebilir.
Stanford’da Hukuk Profesörü ve makalenin ortak yazarı Daniel E. Ho VentureBeat’e verdiği demeçte, “Ekibimiz, genel amaçlı Yapay Zeka araçlarının yasal yanlış ve uydurma bilgilere (sahte gerçekler, davalar, hükümler, tüzükler ve yönetmelikler uydurma eğilimi) eğilimli olduğunu gösteren daha önceki bir çalışma yürütmüştü” dedi. “Yapay zekanın diğer alanlarında olduğu gibi, hukuk teknolojisi endüstrisi de [RAG’a] güveniyor ve cesurca ‘gerçek ve doğru’ ürünlere sahip olduğunu iddia ediyor. Bu durum bizi yasal RAG araçlarındaki bu iddiaları değerlendirmek için bir çalışma tasarlamaya yöneltti ve bu pazarlama iddialarının aksine, yasal RAG’ın yanlış ve uydurma bilgi sorununu çözmediğini gösterdik.”
Yapay Zekanın Uydurma Bilgi Verme Oranı
Araştırmacılar, gerçek hayattaki araştırma senaryolarını temsil eden çeşitli yasal sorgular tasarladılar ve bunları önde gelen üç yapay zeka destekli yasal araştırma aracı olan LexisNexis’in Lexis+ AI ve Thomson Reuters’in Westlaw AI-Assisted Research ve Ask Practical Law AI üzerinde test ettiler. Araçlar açık kaynaklı olmasa da, hepsi perde arkasında bir tür RAG kullandıklarını gösteriyor.
Araştırmacı, araçların çıktılarını manuel olarak incelemiş ve bunları temel olarak RAG’siz GPT-4 ile karşılaştırmış. Çalışma, her üç aracın da GPT-4’ten önemli ölçüde daha iyi performans gösterdiğini, ancak mükemmel olmaktan uzak olduğunu ve sorguların %17-33’ünde yanlış ve uydurma bilgiler gördüğünü ortaya koymuş.
Araştırmacılar ayrıca sistemlerin, araçlar tarafından atıfta bulunulan kaynakların yakından analiz edilmesini gerektiren temel yasal anlama görevlerinde zorlandığını tespit etti. Araştırmacılar, hukuki yapay zeka araçlarının kapalı yapısının, avukatların bu araçlara güvenmenin ne zaman güvenli olduğunu değerlendirmelerini zorlaştırdığını savunuyor.
Ancak yazarlar, mevcut sınırlamalarına rağmen, Yapay Zeka destekli yasal araştırmanın, özellikle son söz yerine bir başlangıç noktası olarak kullanıldığında, geleneksel anahtar kelime arama yöntemlerine veya genel amaçlı Yapay Zeka’ya kıyasla hala değer sağlayabileceğini belirtmekte.
Ho, “Çalışmamızdaki olumlu bulgulardan biri, yasal yanlış ve uydurma bilgilerin genel amaçlı Yapay Zeka’ya kıyasla RAG tarafından azaltılmasıdır. Ancak makalemiz RAG’nin her derde deva olmadığını da belgeliyor. Örneğin, alınan belgeler uygunsuzsa ve yasal erişim benzersiz bir şekilde zorlayıcıysa, RAG boru hattı boyunca hatalar ortaya çıkabilir.” dedi.
Şeffaflık ihtiyacı
Ho, “Makalede ortaya koyduğumuz en önemli argümanlardan biri, yasal Yapay Zeka’da şeffaflığa ve kıyaslamaya acil ihtiyaç duyduğumuzdur” dedi. “Genel Yapay Zeka araştırmalarının tam aksine, hukuk teknolojisi benzersiz bir şekilde kapalıdır ve sağlayıcılar ürünlerin performansına ilişkin neredeyse hiçbir teknik bilgi veya kanıt sunmamaktadır. Bu durum avukatlar için büyük bir risk oluşturuyor.”