KI bald intelligenter als Jurist:innen?

13.08.2023 in Jura & Lehre

Eine von vielen Fragen, die der NRW-Landtag den Experten gestellt hat…

In meinen vorangegangenen Artikeln Richterliche Unabhängigkeit durch KI bedroht? und Einsatz von ChatGPT im Justizbereich habe ich von der Sachverständigenanhörung im NRW-Landtag im Juni 2023 berichtet. In diesem Beitrag wollen wir uns die Antworten der Experten auf eine weitere der dort gestellten Fragen näher ansehen:

In dem Artikel: WISSEN, Freitag, 17. März 2023, Artikel 1⁄4, „KI – Bald intelligenter als ein Mensch?“ heißt es: „Jedenfalls macht GPT-4 nochmals Fortschritte bei Aufgaben, die auch der Vorgänger GPT-3.5 schon konnte. So schnitt GPT-4 bei akademischen Tests teilweise deutlich besser ab. Bei einigen, etwa einem juristischen Test, lag seine Leistung im besten Zehntel der menschlichen Testteilnehmer.“ Was bedeutet dies für die Arbeit von Gerichten, Verwaltungen, Rechtspflegern, etc. in Zukunft?
Frage 3 von 20 des Rechtsausschusses des Landtags Nordrhein-Westfalen am 13.06.2023

Hier die (auszugsweisen) Antworten der Experten:

Klar ist, dass die Nutzung von KI-Anwendungen wie ChatGPT schon heute und verstärkt in naher Zukunft die Arbeit im Rechtsmarkt und in der Justiz beeinflusst bzw. beeinflussen wird. Hinsichtlich einer Nutzung von LLMs in Kanzleien hatten wir schon das ChatGPT-basierte Programm „Harvey“ der Kanzlei Allen & Overy genannt. Auch rechtssuchende Bürgerinnen und Bürger werden sich entsprechender Tools bedienen. Daher muss die Justiz sich mit dem Phänomen befassen, auch wenn sie ChatGPT nicht einsetzt.

In dem in der Frage genannten Artikel wird erwähnt, dass GPT-4 unter dem besten Zehntel der Teilnehmer eines Tests lag. Dies kann insoweit eingeordnet werden, als dass es sich bei dem „juristischen Test“ wohl um ein amerikanisches bar exam handelte. Diese Tests bestehen regelmäßig aus Kurzfällen mit multiple choice-Antwortmöglichkeiten. Bei einem Großteil der Fragen handelt es sich um bloße Wissensabfra- gen. Daher ist nicht erstaunlich, dass GPT-4 den Test gut bestanden hat. Es findet bei solchen Tests aber keine umfassende Fallbearbeitung wie im Richteralltag oder den deutschen Staatsexamina statt. LLMs – wie ChatGPT – „verstehen“ die vom Menschen gestellten Fragen oder Arbeitsaufträge (sog. prompts) nicht. Vielmehr analysieren die LLMs lediglich Muster und Zusammenhänge in Texten und berechnen daraufhin, für welche Worte die mathematisch größte Wahrscheinlichkeit besteht, in einem zu erstellenden Text von einem Menschen als die „richtigen“ Worte angesehen zu werden. Daher werden LLMs auch als „stochastische Papageien“ bezeichnet, also mathematisch-basierte Textroboter, die zuvor von Menschen verfasste Textbeiträge neu zusammengesetzt „nachplappern“.
Richter am Landgericht Dr. Christian Schlicht und Prof. Dr. Simon J. Heetkamp, LL.M.

Frage 3 zielt wohl auf die Ergebnisse von GPT-4 auf dem amerikanischen Uniform Bar Exam 4ab (UBE). Hier erzielte es eine Gesamtpunktzahl von 297 Punkten, was oberhalb typischer Bestanden-Schwellen verschiedener Bundesstaaten liegt. Ungeachtet der an der Berechnung der Ergebnis-Perzentilen angebrachten Zweifel ist hier anzumerken, dass das UBE zu substanziellen Teilen aus Multiple-Choice-Fragen besteht, die zwar zur Wissensprüfung von Studierenden geeignet sein mögen, jedoch nicht der Arbeit in der Rechtspraxis entsprechen. Die Qualität der Texte, die GPT-4 zu den Freitext-Fragen des UBE generierte, ist teilweise durchaus bemerkenswert und legt in der Tat nahe, dass generative Sprachmodelle juristische Textarbeit künftig effektiv unterstützen können. Anbieter von Software zur Unterstützung der Anwaltschaft haben bereits begonnen, Modelle der GPT-Familie in ihre Produkte zu integrieren oder zur Grundlage neuer Produkte zu machen. Es ist daher zu empfehlen, die Nutzbarkeit von generativen Sprachmodellen in der Justiz prinzipiell auszuloten. […]
Prof. Matthias Grabmair, Ph.D., LL.M., Assistant Professor für Legal Tech, School of Computation, Information and Technology Technische Universität München

[…] Die Tatsache, dass ein Test mit begrenzten Fragestellungen mit großem Erfolg bestanden wurde, bedeutet nicht, dass GPT-4 in der Lage ist, echte juristische Sachverhalte mit der gleichen Qualität zu bearbeiten, zu der ein Mensch mit einer vergleichbaren Prüfleistung in der Lage wäre, geschweige denn ein erfahrener Anwalt.

Durch die vorstehenden Hinweise soll die deutliche Verbesserung von der Version GPT-4 im Vergleich zu ChatGPT keinesfalls in Frage gestellt werden. Es soll nur darauf aufmerksam gemacht werden, dass noch mehrere Schritte fehlen, bevor eine hohe Qualität von Antworten, die sich auf Fragen aus dem deutschen Rechtskreis beziehen, zu erwarten sind. Es dürfte ein Finetuning auf das deutsche Recht notwendig sein und es muss eine Einsatzfähigkeit bezüglich echter Lebenssachverhalte und nicht nur in Bezug auf Klausuren erzielt werden.

Es ist davon auszugehen, dass OpenAI und andere Anbieter die Arbeiten hieran fortsetzen. Es fällt jedoch nicht in die Expertise der Verf., Prognosen darüber abzugeben, wie schnell diese Arbeiten voranschreiten werden.
Richterin am Amtsgericht Isabelle Biallaß, Mitglied des Vorstands Deutscher EDV-Gerichtstag e.V.

[…[ Im Bereich der Strafrechtspflege treten die genannten Entwicklungen auch durch eine zunehmende Digitalisierung der Tatbegehung hervor. So steigen etwa die bei Durchsuchungen gesicherten Mengen an Daten rapide an. Eine weitere Zuspitzung dieser Entwicklung ist absehbar. Ohne den Einsatz von KI steht zu besorgen, dass mittelfristig die Strafverfolgung ihren Aufgaben nicht mehr uneingeschränkt gerecht werden kann, wenn sie digitale Herausforderungen vornehmlich mit analogen Instrumentarien zu meistern sucht. Ziel muss es daher sein, im Rahmen des verfassungsrechtlichen und einfachgesetzlichen Handlungsrahmens der Justiz die technischen Entwicklungen zu erschließen, die ihr eine sachgerechte Erledigung ihrer Aufgaben auch in einer weitgehend digitalisierten Gesellschaft ermöglichen. Dies bedarf eines mutigen Einsatzes unterstützender KI-Technologien.

Dabei ist auch die Konkurrenzfähigkeit des justiziellen Arbeitsplatzes in den Blick zu nehmen. Die Justiz darf etwa gegenüber der Anwaltschaft, die zunehmend unter dem Stichwort „Legal Tech“ ihre Arbeitsmöglichkeiten digitalisiert, nicht ins Hintertreffen geraten. Gerichte und Staatsanwaltschaften sollten sich als Teil der staatlichen Aufgabenerfüllung in einer sich wandelnden Gesellschaft auch als „Wettbewerber auf einem sich ausdifferenzierenden Justizleistungsmarkt“ verstehen.

Mit Blick auf die auch die Justiz treffende demographische Entwicklung ist absehbar, dass jedenfalls erhebliche Bereiche der in Summe nicht mehr zur Verfügung stehenden Arbeitskraftanteile durch eine Produktivitätssteigerung aufgefangen werden müssen. Daher erweist sich der sinnvolle und sachgerechte Einsatz von KI im Allgemeinen und LLM im Besonderen als zentrale Grundlage einer fortbestehenden Leistungsfähigkeit des Rechtsstaats insgesamt. Die Justiz wird sich mit Blick auf konservativ interpretierte rechtliche und ethische Rahmenbedingungen als weitgehend KI-freie Sphäre nicht behaupten können, sondern muss in Ansehung der berechtigten Erwartungen der Rechtsuchenden an ein effizientes, schnelles und befähigtes Rechtssystem jedenfalls im Bereich des Strafrechts konstruktive Technikoffenheit annehmen.

So könnte eine sachgerechte Nutzung LLM-basierter Texterstellungskomponenten die Arbeit von Gerichten und Staatsanwaltschaften in Verfahrensbereichen, bei denen wertende Entscheidungen nicht im Vordergrund stehen, erheblich erleichtern und zu einer deutlichen Entlastung führen. Freigewordene zeitliche Ressourcen und personelle Kapazitäten könnten im Rahmen derjenigen Bereiche, die nur durch natürliche Personen wahrgenommen werden können und dürfen, im Ergebnis zu einer beschleunigten Bearbeitung der Vorgänge und zu Qualitätssteigerungen führen. […]
Zentral- und Ansprechstelle Cybercrime Nordrhein-Westfalen – ZAC NRW

Ungeachtet genauerer Definitionen des Begriffs „Intelligenz“ und des Zeitadverbs „bald“ lässt sich die Frage, ob KI „bald intelligenter“ als ein Mensch bzw. Jurist ist, nicht verlässlich beantworten. Die im Landtag NRW befragten Expert:innen sind sich jedoch in der Einordnung dessen, was das aktuelle ChatGPT leisten kann und was nicht, einig: Auch vermeintlich beeindruckende US-amerikanische wissenschaftliche Veröffentlichungen hierzu liefern bei genauerer Betrachtung keinen Beleg, dass die aktuelle Version des LLM zu einem kompetenzgeleiteten Verfassen juristischer Langtexte bzw. Gutachten in der Lage sei. Dennoch finden die Expert:innen die Qualität der Texte, die GPT-4 generiert, teilweise durchaus bemerkenswert und schätzen, dass generative Sprachmodelle juristische Textarbeit künftig effektiv unterstützen können.

by Andreas Dormann