LLM Benchmark Projekt – White Paper

Lesezeit: 3 Minuten
von Future-Law


Ein Beitrag von Future-Law, über das Future-Law LLM Benchmark Projekt


Projektüberblick

Future-Law Advisory hat als erste Organisation in Österreich ein umfassendes LLM Benchmark Review für den juristischen Einsatz durchgeführt. Es wurden sieben führende KI-Modelle  (ChatGPT, Mistral , Gemini, Grok, Claude, DeepSeek und CoPilot) systematisch getestet und verglichen. Es wurden ausschließlich die kostenlosen Versionen der Modelle verwendet, um die Einstiegssituation typischer Rechtsabteilungen abzubilden.

Prüfungsdesign und Methodik

Alle Modelle erhielten identische Aufgaben mit identischen Prompts. Die Bewertung erfolgte über eine strukturierte Bewertungsmatrix mit klar definierten Kriterien. Zur Sicherstellung objektiver Ergebnisse wurden neue Benutzerkonten angelegt und der Inkognito-Modus verwendet. Die fünf Prüfungskategorien waren:

1. OGH-Entscheidungen (via Geschäftszahl, Weblink, PDF und Entscheidungstext)

2. Newsletter und E-Mail auf Basis einer OGH-Entscheidung

3. Juristischer Sachverhalt (vier verschiedene Prompt-Varianten)

4. KG-Vertragsmuster anhand der WKO-Checkliste (17 Punkte)

5. AGB-Klauselanalyse (vier Fragen zu Großbank-AGBs)

Zentrale Ergebnisse

Kernerkenntnis: Es gibt kein universell „bestes“ KI-Modell.

Die Leistungsfähigkeit variiert stark je nach Aufgabentyp. Die wichtigsten Ergebnisse im Einzelnen:

– Claude erzielte insgesamt die höchste Gesamtpunktzahl und dominierte in vielen Kategorien – insbesondere bei Vertragsentwürfen (einziges Modell mit 17/17 Punkten auf der WKO-Checkliste), bei der Sachverhaltsanalyse und bei der OGH-Recherche via Geschäftszahl.

– DeepSeek überzeugte besonders bei der OGH-Analyse via Weblink sowie bei der Newsletter-Erstellung und bestimmten Sachverhaltsanalysen.

– CoPilot zeigte insbesondere bei der AGB Klauselanalyse gute Leistungen.

– Mistral erzielte Spitzenwerte bei der E-Mail-Erstellung und der AGB-Analyse, fiel aber bei Vertragsentwürfen deutlich ab (11/17).

– Gemini erzielte bei Vertragsentwürfen (16/17) starke Ergebnisse.

– ChatGPT erzielte insbesondere bei der E-Mail-Erstellung und der AGB-Analyse solide Ergebnisse.

– Grok überzeugte bei der Vertragserstellung mit starken 16/17 WKO-Punkten und zeigte bei der E-Mail-Erstellung solide Leistungen.

Kritischer Befund zur Informationsrecherche

Die größte Schwachstelle der Modelle liegt nicht in der Textanalyse, sondern im Auffinden der korrekten Information. Wurde der Entscheidungstext direkt bereitgestellt (als Text oder PDF), erzielten fast alle Modelle ein hohes, homogenes Leistungsniveau. Bei der Suche über Geschäftszahl oder Weblink versagten hingegen die meisten Modelle.

Empfehlungen und Fazit

– Kein Modell lieferte in allen Kategorien fehlerfreie Ergebnisse. Das Prinzip „Human-in-command“ bleibt unverzichtbar – die finale rechtliche Bewertung muss stets durch Jurist:innen erfolgen.

– Rechtsabteilungen sollten aufgabenspezifisch das passende Modell wählen, statt auf ein Alleskönner-Modell zu setzen.

– Die Ergebnisse sind eine Momentaufnahme (Stand Ende 2025); regelmäßige Neubewertungen sind aufgrund der rasanten KI-Entwicklung erforderlich.

Fazit: KI im Recht ist kein Hype, sondern ein Werkzeug mit messbarem Nutzen. Die strategische Frage lautet nicht mehr ob, sondern wie klug Rechtsabteilungen KI einsetzen.


Jahres Corporate Partner

Consent Management Platform von Real Cookie Banner