FUTURE-LAW SETZT DEN STANDARD – UNSER LLM BENCHMARK PROJEKT

Lesezeit: 6 Minuten


Von Future-Law, Sophie Martinetz

Sieben KI-Modelle, zwölf juristische Aufgaben, ein Ziel: herausfinden, wer wirklich liefert — und wer halluziniert, als wäre das ein Feature.

Future-Law hat im Dezember 2025 erstmals in Österreich ein systematisches LLM-Benchmarking speziell für den juristischen Einsatz durchgeführt. Gleiches Spielfeld, gleiche Aufgaben, keine Ausreden.

Das zentrale Ergebnis: Das eine beste KI-Modell existiert nicht. Was existiert, ist das richtige Modell für die richtige Aufgabe — und genau das zeigt dieses Ranking.

1. Projektübersicht

Erstmals in Österreich: Systematisches LLM-Benchmark-Review speziell für den juristischen Einsatz

  • Testzeitraum: 01.12.2025 – 22.12.2025
  • Getestete Modelle: 7 (ChatGPT, Mistral, Gemini, Grok, Claude, DeepSeek, CoPilot)
  • Prüfungsaufgaben: 12 Use Cases aus dem Rechtsalltag
  • Maximale Gesamtpunktzahl: 2.060 Punkte
  • Verwendete Versionen: Ausschließlich kostenlose (Gratis-)Versionen
  • Testumgebung: Inkognito-Modus, neu erstellte Accounts, zwei verschiedene Accounts
  • Sprache: Alle Aufgaben in Deutsch, auf Basis österreichischer Rechtstexte

Kernaussage

Es gibt kein universell bestes KI-Modell. Die Leistung variiert stark je nach Aufgabentyp. Claude erzielte die höchste Gesamtpunktzahl, andere Modelle dominierten in Teilbereichen.

2. Prüfungsaufgaben & Punktesystem

Folgende Aufgaben wurden für die LLMs vorbereitet:

PrüfungsaufgabeMax. PunkteBesonderheit
OGH-Entscheidung via Geschäftszahl (GZ)260Modell muss Entscheidung selbst finden
OGH-Entscheidung via Weblink (RIS)260Modell muss Link öffnen und analysieren
OGH-Entscheidung via PDF260Dokument direkt bereitgestellt
OGH-Entscheidung via Entscheidungstext260Volltext direkt bereitgestellt
Newsletter zu OGH-Entscheidung120GZ: 1Ob91/22x
E-Mail zu OGH-Entscheidung120GZ: 1Ob91/22x
Sachverhaltsanalyse (4 Prompt-Varianten)4 × 90Rollen: Anwalt, OGH-Richterin, Jus-Stud., Professorin
KG-Vertragsmuster (WKO-Checkliste)17 × 10 = 17017 Vertragspunkte, × 10 multipliziert
AGB-Klausel-Analyse (4 Fragen)250Dokument einer österreichischen Großbank

Bewertungskriterien (je Aufgabe)

  • Juristische Präzision & inhaltliche Richtigkeit
  • Verständnis des Sachverhalts / Prompt-Umsetzung
  • Sprache, Struktur und Verständlichkeit
  • Logische Argumentation
  • Halluzinationen (Vorhandensein und Ausmaß)
  • Nutzbarkeit des Outputs ohne wesentliche Nachbearbeitung

3. Ergebnisse nach Aufgabenkategorie

TestCase 1: OGH-Entscheidungen – Recherche (GZ & Link)

Haupterkenntnis: Die größte Herausforderung liegt nicht in der Analyse, sondern im Auffinden der korrekten Information.

ModellGZ-Test (Accuracy)Link-Test (Accuracy)Halluzinationen
Claude78 / 9077 / 90Keine
CoPilot74 / 90Keine
DeepSeekSchlechtBester Wert
GeminiNiedrigNiedrigGravierend
Mistral / ChatGPTNiedrigKeine Halluz., Aufgabe nicht erfüllt
GrokSehr schlecht

OGH-Entscheidungen – Analyse (PDF & Text)

Sobald der Text direkt bereitgestellt wird, homogenisiert sich die Leistung. Alle Modelle erzielen hohe Accuracy-Werte (70er-Bereich von 90 möglichen Punkten). Kein Modell hat hier einen signifikanten Vorteil.

TestCase 2: Newsletter & E-Mail

Newsletter: Die Modelle erhielten den Volltext einer OGH-Entscheidung (GZ: 1Ob91/22x) und mussten daraus einen professionellen Newsletter für Kunden, Mandanten und Stakeholder erstellen – klar, prägnant und zielgruppengerecht.

E-Mail: Auf Basis desselben Entscheidungstexts mussten die Modelle zusätzlich eine formelle E-Mail verfassen, die direkt an Kund:innen und Mandant:innen weitergeleitet werden kann – mit klarer Struktur und minimalem Nachbearbeitungsaufwand.

AufgabeBeste ModelleSchwächste Modelle
NewsletterClaude, DeepSeekGemini (Halluzinationen)
E-MailClaude, MistralGrok, DeepSeek, CoPilot (ähnliches Niveau)

Newsletter: Die Fähigkeit, eine komplexe OGH-Entscheidung in einen mandantengerechten Newsletter zu verwandeln, trennte die Modelle deutlich – Claude und DeepSeek lieferten strategisch verwertbare Texte, während Gemini mit Halluzinationen auffüllte, was nicht im Urteil stand.

E-Mail: Bei kürzeren, klar definierten Kommunikationsformaten zeigten fast alle Modelle ein solides Prompt-Verständnis – Claude und Mistral stachen durch besonders prägnante, direkt nutzbare Formulierungen hervor.

TestCase 3: Sachverhaltsanalyse (4 Prompt-Rollen)

Alle Modelle erhielten denselben Sachverhalt in vier Prompt-Varianten mit unterschiedlichen Rollen (Rechtsanwalt, OGH-Richterin, Jus-Studierende/r, Universitätsprofessorin) um einen Sachverhalt zu analysieren. Ziel war zu testen, ob die Rollenzuweisung die Qualität der Analyse beeinflusst — und welches Modell konsistent über alle vier Varianten überzeugt.

Prompt-RollePlatz 1Platz 2Schlusslicht
RechtsanwaltClaude / CoPilotChatGPT / GeminiMistral, Grok, DeepSeek
OGH-RichterinClaudeGeminiMistral, Grok, DeepSeek
Jus-Studierende/rClaude / DeepSeekGemini, Mistral, Grok, ChatGPTCoPilot
UniversitätsprofessorinClaude / DeepSeekGemini, Mistral, Grok, ChatGPTCoPilot

TestCase 4: KG-Vertragsmuster (17 WKO-Punkte)

Die Modelle erhielten die offizielle WKO-Checkliste mit 17 Vertragspunkten und mussten darauf basierend ein vollständiges Mustervertragsdokument für eine Kommanditgesellschaft erstellen — ohne zusätzliches juristisches Domainwissen als Input. Bewertet wurde, wie viele der 17 Pflichtpunkte erfüllt wurden, sowie ob die Modelle proaktiv relevante Zusatzklauseln ergänzten.

Keines der Modelle hat Punkt 17 (Schlussbestimmungen) vollständig erfüllt. Punkt vergeben ab teilweiser Erfüllung.

ModellPunkte (von 17)Wertung (× 10)Proaktive Zusatzklauseln
Claude17/17170Kontrollrechte Kommanditisten, Übertragung Geschäftsanteile
Gemini16/17160Übertragung Gesellschaftsanteile
Grok16/17160Salvatorische Klausel
DeepSeek15/17150Kontrollrechte, Salvatorische Klausel (teilw. außerhalb Vertrag)
ChatGPT13/17130Erläuterung Haftungsregeln KG
CoPilot13/17130Österr. Recht, Gerichtsstand
Mistral11/17110Jahresabschluss, Informationsrechte Kommanditisten

TestCase 5: AGB-Klausel-Analyse (4 Fragen zu Großbank-AGB)

Die Modelle erhielten das vollständige AGB-Dokument einer österreichischen Großbank und mussten vier konkrete Fragen dazu beantworten — zu Kündigungsrechten der Bank, Kündigungsrechten des Kunden, Entstehung des Pfandrechts und Rückzahlungswährung bei Fremdwährungskrediten. Geprüft wurde dabei nicht nur die inhaltliche Korrektheit, sondern auch ob die Modelle zwischen Verbraucher- und Unternehmerrechten korrekt differenzieren.

Fragen: (1) Kündigung durch Bank, (2) Kündigung durch Kunden, (3) Entstehung Pfandrecht, (4) Rückzahlungswährung Fremdwährungskredit

ModellErgebnisBesonderheit
MistralBestes ErgebnisHauptregel + Ausnahmen, vollständige Darstellung Umwandlungsrechte Bank
CoPilotBestes ErgebnisJede Aussage mit AGB-Zitatbeleg untermauert
ChatGPT / Claude / DeepSeekDicht dahinterSolide, weitgehend korrekte Outputs
GeminiSchwachHalluzination: behauptet Pfandrecht nicht geregelt; verwechselt Z 37 (Fremdwährungskonto) mit Z 75 (Fremdwährungskredit)
GrokSchwachHalluzination: behauptet keine explizite Regelung zur Rückzahlungswährung; falsche Normzitierung

Kritische Erkenntnis AGB: 2 von 7 Modellen produzierten Halluzinationen, die auf den ersten Blick plausibel wirken. Für Rechtsabteilungen ohne Fachkenntnis nicht erkennbar.

4. Gesamtergebnisse des Rankings & Empfehlungen

Das Ranking basiert auf der Summe aller Einzelbewertungen über alle 12 Prüfungsaufgaben hinweg — von der OGH-Recherche bis zum Vertragsentwurf. Claude erreichte mit Abstand die höchste Gesamtpunktzahl, wobei der Abstand zu den Plätzen 2 und 3 (CoPilot, DeepSeek) vor allem durch die starken Leistungen bei Vertragserstellung und Sachverhaltsanalyse zustande kam.

Gesamtranking (alle Aufgaben, max. 2.060 Punkte)

Das Ranking basiert auf der Summe aller Einzelbewertungen über alle 12 Prüfungsaufgaben hinweg — von der OGH-Recherche bis zum Vertragsentwurf, bei einer maximalen Gesamtpunktzahl von 2.060 Punkten. Claude erreichte mit Abstand die höchste Gesamtpunktzahl, wobei der Abstand zu den Plätzen 2 und 3 vor allem durch die dominante Leistung bei Vertragserstellung und Sachverhaltsanalyse zustande kam.

RangModellStärken
1ClaudeHöchste Gesamtpunktzahl, dominant bei Vertragserstellung und juristischen Analysen
2CoPilotStark bei AGB-Analyse, GZ-Recherche, konsistente Leistung
3DeepSeekSehr stark bei Link-Recherche, Newsletter; schwach bei Sachverhalten
4GeminiKonsistent bei allg. Aufgaben; Halluzinationen bei AGB und GZ
5MistralBester AGB-Output; schwach bei OGH-Recherche und Sachverhalten
6ChatGPTVariable Leistung, keine klaren Spitzenplätze
7GrokDurchgehend schwach, Halluzinationen bei AGB

Empfehlungen nach Anwendungsfall

Die Tabelle zeigt auf einen Blick, welches Modell für welche konkrete Aufgabe in einer Rechtsabteilung am besten geeignet ist — denn die Rangfolge verschiebt sich je nach Aufgabentyp erheblich. Die zentrale Empfehlung lautet daher: nicht ein Modell für alles wählen, sondern gezielt das passende Tool für den jeweiligen Use Case einsetzen.

AufgabeEmpfohlenes Modell
OGH-Entscheidung recherchieren (nur GZ bekannt)Claude, CoPilot
OGH-Entscheidung über Link analysierenDeepSeek, Claude
OGH-Entscheidung via Text/PDF zusammenfassenAlle Modelle vergleichbar
Newsletter oder E-Mail zu OGH-EntscheidungClaude, DeepSeek (Newsletter); Claude, Mistral (E-Mail)
Juristische Sachverhalte lösenClaude (konsistent über alle 4 Prompt-Varianten)
KG-Vertragsmuster erstellenClaude (einziges Modell mit 17/17 Punkten)
AGB-Klauseln analysierenMistral, CoPilot

Wichtige Einschränkungen dieser Studie

  • Nur Gratis-Versionen getestet – kostenpflichtige Versionen können abweichen
  • Momentaufnahme Dezember 2025 – Modelle entwickeln sich laufend weiter
  • Nur deutsche Sprache – keine Aussagen zu mehrsprachigen Szenarien
  • Nicht bewertet: Datenschutz, Sicherheit, Governance, Preismodelle, Support
  • Einmalige Interaktion pro Aufgabe – iterative Dialoge können Ergebnisse verbessern
  • Kein juristisches Domainwissen als Input gegeben (KG-Vertrag)

Fazit

Das beste KI-Modell existiert nicht. Claude ist das vielseitigste Modell mit der höchsten Gesamtpunktzahl. Für spezialisierte Aufgaben (AGB: Mistral/CoPilot; Link-Recherche: DeepSeek) sind andere Modelle besser geeignet. Halluzinationen traten bei Gemini und Grok auf und sind ohne juristisches Fachwissen nicht erkennbar. Das Prinzip „Human in Command“ – nicht nur „Human in the Loop“ – bleibt in jedem Fall unverzichtbar.

Danke an das Future-Law Team für tolle Arbeit!

Sie wollen eine längere Version des LLM Benchmarkings?

Für Rückfragen stehen wir Ihnen gerne zur Verfügung.

s.martinetz@future-law.at

Jahres Corporate Partner

Consent Management Platform von Real Cookie Banner