FUTURE-LAW SETZT DEN STANDARD – UNSER LLM BENCHMARK PROJEKT
31. März 2026
Von Future-Law, Sophie Martinetz
Sieben KI-Modelle, zwölf juristische Aufgaben, ein Ziel: herausfinden, wer wirklich liefert — und wer halluziniert, als wäre das ein Feature.
Future-Law hat im Dezember 2025 erstmals in Österreich ein systematisches LLM-Benchmarking speziell für den juristischen Einsatz durchgeführt. Gleiches Spielfeld, gleiche Aufgaben, keine Ausreden.
Das zentrale Ergebnis: Das eine beste KI-Modell existiert nicht. Was existiert, ist das richtige Modell für die richtige Aufgabe — und genau das zeigt dieses Ranking.
1. Projektübersicht
Erstmals in Österreich: Systematisches LLM-Benchmark-Review speziell für den juristischen Einsatz
- Testzeitraum: 01.12.2025 – 22.12.2025
- Getestete Modelle: 7 (ChatGPT, Mistral, Gemini, Grok, Claude, DeepSeek, CoPilot)
- Prüfungsaufgaben: 12 Use Cases aus dem Rechtsalltag
- Maximale Gesamtpunktzahl: 2.060 Punkte
- Verwendete Versionen: Ausschließlich kostenlose (Gratis-)Versionen
- Testumgebung: Inkognito-Modus, neu erstellte Accounts, zwei verschiedene Accounts
- Sprache: Alle Aufgaben in Deutsch, auf Basis österreichischer Rechtstexte
Kernaussage
Es gibt kein universell bestes KI-Modell. Die Leistung variiert stark je nach Aufgabentyp. Claude erzielte die höchste Gesamtpunktzahl, andere Modelle dominierten in Teilbereichen.
2. Prüfungsaufgaben & Punktesystem
Folgende Aufgaben wurden für die LLMs vorbereitet:
| Prüfungsaufgabe | Max. Punkte | Besonderheit |
| OGH-Entscheidung via Geschäftszahl (GZ) | 260 | Modell muss Entscheidung selbst finden |
| OGH-Entscheidung via Weblink (RIS) | 260 | Modell muss Link öffnen und analysieren |
| OGH-Entscheidung via PDF | 260 | Dokument direkt bereitgestellt |
| OGH-Entscheidung via Entscheidungstext | 260 | Volltext direkt bereitgestellt |
| Newsletter zu OGH-Entscheidung | 120 | GZ: 1Ob91/22x |
| E-Mail zu OGH-Entscheidung | 120 | GZ: 1Ob91/22x |
| Sachverhaltsanalyse (4 Prompt-Varianten) | 4 × 90 | Rollen: Anwalt, OGH-Richterin, Jus-Stud., Professorin |
| KG-Vertragsmuster (WKO-Checkliste) | 17 × 10 = 170 | 17 Vertragspunkte, × 10 multipliziert |
| AGB-Klausel-Analyse (4 Fragen) | 250 | Dokument einer österreichischen Großbank |
Bewertungskriterien (je Aufgabe)
- Juristische Präzision & inhaltliche Richtigkeit
- Verständnis des Sachverhalts / Prompt-Umsetzung
- Sprache, Struktur und Verständlichkeit
- Logische Argumentation
- Halluzinationen (Vorhandensein und Ausmaß)
- Nutzbarkeit des Outputs ohne wesentliche Nachbearbeitung
3. Ergebnisse nach Aufgabenkategorie
TestCase 1: OGH-Entscheidungen – Recherche (GZ & Link)
Haupterkenntnis: Die größte Herausforderung liegt nicht in der Analyse, sondern im Auffinden der korrekten Information.
| Modell | GZ-Test (Accuracy) | Link-Test (Accuracy) | Halluzinationen |
| Claude | 78 / 90 | 77 / 90 | Keine |
| CoPilot | 74 / 90 | — | Keine |
| DeepSeek | Schlecht | Bester Wert | — |
| Gemini | Niedrig | Niedrig | Gravierend |
| Mistral / ChatGPT | Niedrig | Keine Halluz., Aufgabe nicht erfüllt | — |
| Grok | Sehr schlecht | — | — |
OGH-Entscheidungen – Analyse (PDF & Text)
Sobald der Text direkt bereitgestellt wird, homogenisiert sich die Leistung. Alle Modelle erzielen hohe Accuracy-Werte (70er-Bereich von 90 möglichen Punkten). Kein Modell hat hier einen signifikanten Vorteil.
TestCase 2: Newsletter & E-Mail
Newsletter: Die Modelle erhielten den Volltext einer OGH-Entscheidung (GZ: 1Ob91/22x) und mussten daraus einen professionellen Newsletter für Kunden, Mandanten und Stakeholder erstellen – klar, prägnant und zielgruppengerecht.
E-Mail: Auf Basis desselben Entscheidungstexts mussten die Modelle zusätzlich eine formelle E-Mail verfassen, die direkt an Kund:innen und Mandant:innen weitergeleitet werden kann – mit klarer Struktur und minimalem Nachbearbeitungsaufwand.
| Aufgabe | Beste Modelle | Schwächste Modelle |
| Newsletter | Claude, DeepSeek | Gemini (Halluzinationen) |
| Claude, Mistral | Grok, DeepSeek, CoPilot (ähnliches Niveau) |
Newsletter: Die Fähigkeit, eine komplexe OGH-Entscheidung in einen mandantengerechten Newsletter zu verwandeln, trennte die Modelle deutlich – Claude und DeepSeek lieferten strategisch verwertbare Texte, während Gemini mit Halluzinationen auffüllte, was nicht im Urteil stand.
E-Mail: Bei kürzeren, klar definierten Kommunikationsformaten zeigten fast alle Modelle ein solides Prompt-Verständnis – Claude und Mistral stachen durch besonders prägnante, direkt nutzbare Formulierungen hervor.
TestCase 3: Sachverhaltsanalyse (4 Prompt-Rollen)
Alle Modelle erhielten denselben Sachverhalt in vier Prompt-Varianten mit unterschiedlichen Rollen (Rechtsanwalt, OGH-Richterin, Jus-Studierende/r, Universitätsprofessorin) um einen Sachverhalt zu analysieren. Ziel war zu testen, ob die Rollenzuweisung die Qualität der Analyse beeinflusst — und welches Modell konsistent über alle vier Varianten überzeugt.
| Prompt-Rolle | Platz 1 | Platz 2 | Schlusslicht |
| Rechtsanwalt | Claude / CoPilot | ChatGPT / Gemini | Mistral, Grok, DeepSeek |
| OGH-Richterin | Claude | Gemini | Mistral, Grok, DeepSeek |
| Jus-Studierende/r | Claude / DeepSeek | Gemini, Mistral, Grok, ChatGPT | CoPilot |
| Universitätsprofessorin | Claude / DeepSeek | Gemini, Mistral, Grok, ChatGPT | CoPilot |
TestCase 4: KG-Vertragsmuster (17 WKO-Punkte)
Die Modelle erhielten die offizielle WKO-Checkliste mit 17 Vertragspunkten und mussten darauf basierend ein vollständiges Mustervertragsdokument für eine Kommanditgesellschaft erstellen — ohne zusätzliches juristisches Domainwissen als Input. Bewertet wurde, wie viele der 17 Pflichtpunkte erfüllt wurden, sowie ob die Modelle proaktiv relevante Zusatzklauseln ergänzten.
Keines der Modelle hat Punkt 17 (Schlussbestimmungen) vollständig erfüllt. Punkt vergeben ab teilweiser Erfüllung.
| Modell | Punkte (von 17) | Wertung (× 10) | Proaktive Zusatzklauseln |
| Claude | 17/17 | 170 | Kontrollrechte Kommanditisten, Übertragung Geschäftsanteile |
| Gemini | 16/17 | 160 | Übertragung Gesellschaftsanteile |
| Grok | 16/17 | 160 | Salvatorische Klausel |
| DeepSeek | 15/17 | 150 | Kontrollrechte, Salvatorische Klausel (teilw. außerhalb Vertrag) |
| ChatGPT | 13/17 | 130 | Erläuterung Haftungsregeln KG |
| CoPilot | 13/17 | 130 | Österr. Recht, Gerichtsstand |
| Mistral | 11/17 | 110 | Jahresabschluss, Informationsrechte Kommanditisten |
TestCase 5: AGB-Klausel-Analyse (4 Fragen zu Großbank-AGB)
Die Modelle erhielten das vollständige AGB-Dokument einer österreichischen Großbank und mussten vier konkrete Fragen dazu beantworten — zu Kündigungsrechten der Bank, Kündigungsrechten des Kunden, Entstehung des Pfandrechts und Rückzahlungswährung bei Fremdwährungskrediten. Geprüft wurde dabei nicht nur die inhaltliche Korrektheit, sondern auch ob die Modelle zwischen Verbraucher- und Unternehmerrechten korrekt differenzieren.
Fragen: (1) Kündigung durch Bank, (2) Kündigung durch Kunden, (3) Entstehung Pfandrecht, (4) Rückzahlungswährung Fremdwährungskredit
| Modell | Ergebnis | Besonderheit |
| Mistral | Bestes Ergebnis | Hauptregel + Ausnahmen, vollständige Darstellung Umwandlungsrechte Bank |
| CoPilot | Bestes Ergebnis | Jede Aussage mit AGB-Zitatbeleg untermauert |
| ChatGPT / Claude / DeepSeek | Dicht dahinter | Solide, weitgehend korrekte Outputs |
| Gemini | Schwach | Halluzination: behauptet Pfandrecht nicht geregelt; verwechselt Z 37 (Fremdwährungskonto) mit Z 75 (Fremdwährungskredit) |
| Grok | Schwach | Halluzination: behauptet keine explizite Regelung zur Rückzahlungswährung; falsche Normzitierung |
Kritische Erkenntnis AGB: 2 von 7 Modellen produzierten Halluzinationen, die auf den ersten Blick plausibel wirken. Für Rechtsabteilungen ohne Fachkenntnis nicht erkennbar.
4. Gesamtergebnisse des Rankings & Empfehlungen
Das Ranking basiert auf der Summe aller Einzelbewertungen über alle 12 Prüfungsaufgaben hinweg — von der OGH-Recherche bis zum Vertragsentwurf. Claude erreichte mit Abstand die höchste Gesamtpunktzahl, wobei der Abstand zu den Plätzen 2 und 3 (CoPilot, DeepSeek) vor allem durch die starken Leistungen bei Vertragserstellung und Sachverhaltsanalyse zustande kam.
Gesamtranking (alle Aufgaben, max. 2.060 Punkte)
Das Ranking basiert auf der Summe aller Einzelbewertungen über alle 12 Prüfungsaufgaben hinweg — von der OGH-Recherche bis zum Vertragsentwurf, bei einer maximalen Gesamtpunktzahl von 2.060 Punkten. Claude erreichte mit Abstand die höchste Gesamtpunktzahl, wobei der Abstand zu den Plätzen 2 und 3 vor allem durch die dominante Leistung bei Vertragserstellung und Sachverhaltsanalyse zustande kam.
| Rang | Modell | Stärken |
| 1 | Claude | Höchste Gesamtpunktzahl, dominant bei Vertragserstellung und juristischen Analysen |
| 2 | CoPilot | Stark bei AGB-Analyse, GZ-Recherche, konsistente Leistung |
| 3 | DeepSeek | Sehr stark bei Link-Recherche, Newsletter; schwach bei Sachverhalten |
| 4 | Gemini | Konsistent bei allg. Aufgaben; Halluzinationen bei AGB und GZ |
| 5 | Mistral | Bester AGB-Output; schwach bei OGH-Recherche und Sachverhalten |
| 6 | ChatGPT | Variable Leistung, keine klaren Spitzenplätze |
| 7 | Grok | Durchgehend schwach, Halluzinationen bei AGB |
Empfehlungen nach Anwendungsfall
Die Tabelle zeigt auf einen Blick, welches Modell für welche konkrete Aufgabe in einer Rechtsabteilung am besten geeignet ist — denn die Rangfolge verschiebt sich je nach Aufgabentyp erheblich. Die zentrale Empfehlung lautet daher: nicht ein Modell für alles wählen, sondern gezielt das passende Tool für den jeweiligen Use Case einsetzen.
| Aufgabe | Empfohlenes Modell |
| OGH-Entscheidung recherchieren (nur GZ bekannt) | Claude, CoPilot |
| OGH-Entscheidung über Link analysieren | DeepSeek, Claude |
| OGH-Entscheidung via Text/PDF zusammenfassen | Alle Modelle vergleichbar |
| Newsletter oder E-Mail zu OGH-Entscheidung | Claude, DeepSeek (Newsletter); Claude, Mistral (E-Mail) |
| Juristische Sachverhalte lösen | Claude (konsistent über alle 4 Prompt-Varianten) |
| KG-Vertragsmuster erstellen | Claude (einziges Modell mit 17/17 Punkten) |
| AGB-Klauseln analysieren | Mistral, CoPilot |
Wichtige Einschränkungen dieser Studie
- Nur Gratis-Versionen getestet – kostenpflichtige Versionen können abweichen
- Momentaufnahme Dezember 2025 – Modelle entwickeln sich laufend weiter
- Nur deutsche Sprache – keine Aussagen zu mehrsprachigen Szenarien
- Nicht bewertet: Datenschutz, Sicherheit, Governance, Preismodelle, Support
- Einmalige Interaktion pro Aufgabe – iterative Dialoge können Ergebnisse verbessern
- Kein juristisches Domainwissen als Input gegeben (KG-Vertrag)
Fazit
Das beste KI-Modell existiert nicht. Claude ist das vielseitigste Modell mit der höchsten Gesamtpunktzahl. Für spezialisierte Aufgaben (AGB: Mistral/CoPilot; Link-Recherche: DeepSeek) sind andere Modelle besser geeignet. Halluzinationen traten bei Gemini und Grok auf und sind ohne juristisches Fachwissen nicht erkennbar. Das Prinzip „Human in Command“ – nicht nur „Human in the Loop“ – bleibt in jedem Fall unverzichtbar.
Danke an das Future-Law Team für tolle Arbeit!
Sie wollen eine längere Version des LLM Benchmarkings?
Für Rückfragen stehen wir Ihnen gerne zur Verfügung.
