Stanford: Juridiska AI-verktyg hallucinerar 17-33% av tiden

LexisNexis, Thomson Reuters och Westlaw lovar AI-verktyg som “eliminerar” eller “undviker” hallucinationer i juridisk forskning. Stanford University testade dessa påståenden systematiskt. Resultatet? Alla verktyg hallucinerar fortfarande – mellan 17% och 33% av tiden.

Detta är den första oberoende, förregistrerade utvärderingen av kommersiella juridiska RAG-system (Retrieval-Augmented Generation). För projektledare som överväger AI-verktyg i juridiska sammanhang – eller som behöver förstå AI-risker i reglerade miljöer – är detta avgörande läsning.

Vad Stanford faktiskt hittade

Forskarna körde 202 juridiska frågor mot fyra system: Lexis+ AI, Westlaw AI-Assisted Research, Ask Practical Law AI, och GPT-4 (som baseline). Varje svar granskades manuellt av juridiska experter.

Resultat:

Lexis+ AI: 17% hallucinationer, 65% korrekta svar
Westlaw AI-AR: 33% hallucinationer, 42% korrekta svar
Ask Practical Law AI: 17% hallucinationer, men 62% ofullständiga svar (vägrar svara)
GPT-4: 43% hallucinationer

RAG minskar hallucinationer jämfört med GPT-4, men problemet är långt ifrån löst.

Fyra typer av farliga fel

Stanford identifierade specifika sätt som juridiska AI-verktyg misslyckas:

1. Förstår inte domstolsbeslut Westlaw påstod att Supreme Court i Robers v. U.S. fastslog att säkerheter räknas som återbetalning “av någon del” av lånet. Verkliga Robers höll exakt motsatsen.

2. Blandar ihop juridiska aktörer
Systemen kan inte skilja mellan vad en part argumenterar och vad domstolen faktiskt beslutar. Westlaw tillskrev svarandens handling till domstolen själv.

3. Respekterar inte hierarki av auktoritet Westlaw påstod att Nebraska Supreme Court “omgjorde” ett U.S. Supreme Court-beslut i federal lag – juridiskt omöjligt. Lexis+ AI kunde inte skilja mellan district court och appellate court-standarder.

4. Fabricerar lagregler Westlaw påstod att Federal Rules of Bankruptcy Procedure säger att deadlines är jurisdiktionella. Ingen sådan paragraf finns – och påståendet strider mot Supreme Court-prejudikat.

Varför RAG inte räcker

RAG-system kopplar AI-modellen till juridiska databaser. Teoretiskt ska detta stoppa hallucinationer. Praktiskt misslyckas det av fyra skäl:

Naive Retrieval: Systemet hittar inte rätt dokument. När det frågades om “moral wrong doctrine” hittade Lexis+ AI dokument om “moral turpitude” – liknande ord, helt orelaterad juridisk term.

Inapplicable Authority: Systemet citerar fel jurisdiktion, fel domstol, eller upphävda fall. Lexis+ AI citerade skattedomstolens regler för en konkursfråga.

Sycophancy: Modellen håller med användaren även när användaren har fel – dock gjorde de testade systemen detta sällan.

Reasoning Errors: Även med rätt dokument drar AI:n fel slutsatser. Westlaw läste ett stycke korrekt men tillskrev det fel aktör.

Praktiska konsekvenser för supervision

Stanford-studien visar ett dilemma för alla som ska övervaka AI-output:

Scenario 1: Verifiera varje påstående och varje källhänvisning manuellt. Detta tar bort effektivitetsvinsten som AI lovar.

Scenario 2: Lita på AI utan full verifiering. Detta bryter mot tillsynsansvar och kan leda till allvarliga fel.

I USA har advokatsamfunden i New York, Kalifornien och Florida publicerat vägledning: jurister måste “förstå riskerna och fördelarna” med AI-verktyg de använder. Men ingen leverantör publicerar faktiska benchmarks eller felfrekvenser.

Följderna är redan synliga:

New York-jurist sanktionerad för att citera ChatGPT-fabricerade fall
Kanadensiskt flygbolag hållet ansvarigt för AI-chatbot misinformation
Över 25 federala domare i USA kräver nu AI-disclosure i domstol

Vad betyder “hallucination-free” egentligen?

LexisNexis påstår “100% hallucination-free linked legal citations”. Stanford visar: detta stämmer bara i snävaste tekniska mening – systemet länkar till verkliga dokument. Men om dokumenten är irrelevanta, från fel jurisdiktion, eller rent av motsäger AI:ns påstående, är det fortfarande en hallucination.

Exempel från studien: Lexis+ AI frågad om Judge Luther A. Wilgarten (en fiktiv domare). Systemet hittade ett verkligt fall och länkade det – men fallet skrevs av en helt annan domare. “Hallucination-free citation” som är fullständigt vilseledande.

Kursinfo: AI för projektledare

Fem praktiska åtgärder

1. Kräv transparens
Innan du köper juridiskt AI-verktyg: begär oberoende benchmarks, felfrekvenser per kategori, och valideringsmetodik. Om leverantören inte kan leverera, är påståendena ogrundade.

2. Bygg verifieringsprocess
Skapa checklista:

Klicka på varje källhänvisning
Läs faktiskt den citerade texten
Bekräfta att källan stödjer påståendet
Kontrollera att källan är fortfarande gällande rätt

3. Förstå ditt scope
AI-hallucinationer är värre för:

Jurisdiction-specific frågor (circuit splits)
Time-sensitive frågor (nya rättsfall)
Komplexa auktoritetshierarkier

Använd AI för initial research, aldrig för slutgiltig verifiering.

4. Dokumentera AI-användning
Vid varje AI-assisterat arbete:

Vilket verktyg användes?
Vilka frågor ställdes?
Hur verifierades svaren?

Detta skyddar både vid kvalitetskontroll och vid eventuell ansvarsprövning.

5. Investera i AI-literacy
Team behöver förstå:

Skillnaden mellan RAG och general-purpose LLMs
Vad “grounded” vs “hallucinated” betyder
När AI är lämplig och olämplig

Stanford-studien kan användas som utbildningsmaterial – konkreta exempel på vad som går fel.

Slutsats: Trust but verify – hårt

Juridiska AI-verktyg kan vara värdefulla för att påbörja research, hitta relevanta rättsfall, eller utforska nya rättsområden. Men påståenden om “hallucination-free” eller att RAG “eliminerar” fel är kraftigt överdrivna.

17-33% hallucinationsfrekvens betyder: i genomsnitt vart tredje till sjätte svar innehåller falsk information eller felaktiga källhänvisningar. Det är inte acceptabelt för juridiskt arbete där precision är avgörande.

Tills leverantörerna publicerar systematiska, oberoende utvärderingar – och tills felfrekvenserna sjunker dramatiskt – måste varje AI-genererat påstående behandlas som opålitligt tills manuellt verifierat.

AI är ett kraftfullt verktyg. Men ansvar för korrekthet ligger fortfarande helt på människan som använder verktyget.

Källa: “Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools” från Varun Magesh, Faiz Surani, Matthew Dahl, et al., Stanford University, publicerad i Journal of Empirical Legal Studies, 2025

Tillbaka till artiklarna

“Hallucination-free”? Stanford testar juridiska AI-verktyg – och hittar allvarliga brister

Vad Stanford faktiskt hittade

Fyra typer av farliga fel

Varför RAG inte räcker

Praktiska konsekvenser för supervision

Vad betyder “hallucination-free” egentligen?

Fem praktiska åtgärder

Slutsats: Trust but verify – hårt