Gerichtsurteile mit ChatGPT

24.03.2023 in Jura & Lehre, Media & More

Warum wir eine Diskussion über die digitale Kompetenz der Justiz führen müssen.

Da habe ich vergangene Woche doch aufgemerkt, als mir ein Artikel mit der Headline „ChatGPT in Colombian Courts“ auf verfassungsblog.de unter die Augen kam. Es geht um zwei Gerichtsurteile in Kolumbien, die unter Verwendung von künstlicher Intelligenz (KI) gesprochen wurden. Der Autor des Artikels sieht die Verwendung von KI in Gerichtsverfahren – zurecht, wie ich meine – sehr kritisch und weist auf mögliche ethische Bedenken und Einschränkungen individueller Rechte hin. Er fordert eine sorgfältige Regulierung und Überwachung von KI im Strafrecht, um sicherzustellen, dass die Rechte der Bürger geschützt werden.

Ich habe diesen bemerkenswerten Artikel nachfolgend ins Deutsche übersetzt. Den Verweis auf das Original finden Sie am Ende des Textes.

„Am 31. Januar 2023 erließ Richter Juan Manuel Padilla ein 7-seitiges Urteil in einem Fall, in dem es um das Grundrecht auf Gesundheit eines Kindes ging, bei dem Autismus diagnostiziert wurde. Es handelte sich um einen relativ einfachen Fall aus der zweiten Instanz, der von einem Richter in Cartagena, Kolumbien, entschieden wurde. Die zentrale Rechtsfrage war, ob die Forderung einer Krankenkasse nach Zuzahlungen oder einer Gebühr für die Genehmigung eines medizinischen Verfahrens gegen das Grundrecht des Kindes auf Gesundheit und ein Leben in Würde verstieß. Richter Padilla bestätigte das Urteil der ersten Instanz, das zugunsten des Kindes ausfiel.

Das Urteil wäre eines von Tausenden von Gerichtsentscheidungen gewesen, die jedes Jahr in Kolumbien im Gesundheitsbereich ergehen, wenn der Richter nicht beschlossen hätte, seine Gespräche mit ChatGPT zu protokollieren, die er zur Begründung seines Urteils herangezogen hatte. Innerhalb weniger Stunden gelangte das Urteil in die kolumbianischen Medien und wurde nun von Medien in aller Welt aufgegriffen.

Nur 10 Tage später erließ die Richterin María Victoria Quiñones vom Verwaltungsgericht der Magdalenen, ebenfalls in Kolumbien, einen ähnlichen Gerichtsbeschluss, in dem die ChatGPT-Aufforderungen ebenfalls transkribiert wurden. Die Interaktionen von Richterin Quiñones mit dem Chatbot zielten auf die Beantwortung technischer Fragen ab, die ihr dabei halfen, zu entscheiden, wie eine Gerichtsverhandlung im Metaverse durchgeführt werden sollte. In dem Gerichtsverfahren ging es um eine direkte Reparationsforderung (reparación directa), die von einem Auftragnehmer der kolumbianischen Nationalpolizei gestellt wurde. Am 15. Februar fand die Anhörung in den Horizon Workrooms von Meta statt und wurde per Livestream auf YouTube übertragen.

Dieser Blogpost untersucht die Herausforderungen, die der Einsatz von Large Language Models (LLMs) Tools, wie ChatGPT, bei der Ausarbeitung von Gerichtsurteilen mit sich bringt, und allgemeiner die Gefahren des Einsatzes neuer Technologien in der Justiz, in Kolumbien und darüber hinaus. Mein Hauptargument ist, dass die derzeitigen LLMs keine vertrauenswürdigen Informationsquellen sind und nur mit äußerster Vorsicht verwendet werden sollten, wenn keine anderen, effektiveren und sichereren Optionen zur Verfügung stehen. Darüber hinaus behaupte ich, dass die Justiz die digitale Kompetenz und eine informierte, transparente, ethische und verantwortungsvolle Nutzung von KI-Tools fördern sollte, um deren potenzielle Vorteile zu nutzen und Risiken zu vermeiden.

Die Richter haben ChatGPT nicht sachkundig oder verantwortungsbewusst eingesetzt

Die Texte des Urteils und des Gerichtsbeschlusses, die von den kolumbianischen Richtern erlassen wurden, waren nicht einfach ein Kopieren/Einfügen der an ChatGPT gestellten Fragen und der Antworten des Chatbots. Einerseits erläuterte die Entscheidung von Richter Padilla kurz und bündig den Sachverhalt, beschrieb die Logik der erstinstanzlichen Entscheidung, nannte die wichtigsten verfassungsrechtlichen Fragen, die auf dem Spiel standen, listete die relevanten Artikel der kolumbianischen Verfassung auf und zitierte ein Urteil des Verfassungsgerichts, das sich mit einem sehr ähnlichen Fall befasste (für eine ausführlichere Beschreibung des Sachverhalts und der Tutela-Verfassungsklage siehe den Beitrag von Professor Lorena Florez). Im Gerichtsbeschluss von Richter Quiñones wird hingegen erklärt, dass die Parteien sich darauf geeinigt haben, die erste Anhörung des Verwaltungsverfahrens im Metaverse durchzuführen, es werden Rechtsvorschriften und Rechtsprechung zitiert, die den Einsatz von Informationstechnologien in Gerichtsverfahren rechtfertigen, und es wird erklärt, was das Metaverse ist und wie die Anhörung ablaufen wird. Wenn die Antworten des Chatbots nur ein Teil der Begründungen der Gerichtsentscheidungen waren, warum sollten wir uns dann dafür interessieren oder sogar darüber besorgt sein, wie die kolumbianischen Richter ChatGPT eingesetzt haben?

Die kurze Antwort ist, dass sie ChatGPT wie ein Orakel nutzten: eine vertrauenswürdige Wissensquelle, die keiner Überprüfung bedurfte. Obwohl die Richter die Tatsache, dass sie das Tool verwendeten, transparent darstellten und Anführungszeichen einfügten, um den von ChatGPT produzierten Inhalt zu kennzeichnen, war ihre Verwendung weder sachkundig noch verantwortungsvoll.

Es gibt drei Hauptgründe, warum die Art und Weise, wie ChatGPT von der Justiz in diesen Fällen verwendet wurde, für Kolumbianer und darüber hinaus sehr besorgniserregend ist.

Erstens steht bei gerichtlichen Entscheidungen zu viel auf dem Spiel – vor allem, wenn es um Menschenrechte geht -, um den Einsatz unzuverlässiger und unzureichend getesteter Technologien zu rechtfertigen. Aufgrund der Art und Weise, wie LLMs wie ChatGPT entwickelt werden und funktionieren, neigen diese Werkzeuge dazu, falsche und ungenaue Antworten zu geben und die Realität mit der Fiktion zu verwechseln. Selbst der CEO von OpenAI räumte im Dezember 2022 ein, dass „ChatGPT unglaublich begrenzt ist (…) es ist ein Fehler, sich im Moment für irgendetwas Wichtiges darauf zu verlassen“. Außerdem ist es aus strukturellen Gründen unwahrscheinlich, dass diese Probleme der LLMs bald gelöst werden.

In den beiden kolumbianischen Fällen waren die Antworten von ChatGPT nicht zufällig, sondern ausschlaggebend für die von den Gerichten getroffenen Entscheidungen. In der Entscheidung von Richter Padilla bestanden zwei der sieben Seiten aus einer Transkription von vier ChatGPT-Antworten auf Aufforderungen. Das bedeutet, dass etwa 29 % des Urteils aus von ChatGPT generiertem Text bestehen. Obwohl die Antworten von ChatGPT also nicht die einzige Rechtsgrundlage des Urteils waren, sind sie ein wesentlicher Bestandteil der Entscheidung. Darüber hinaus befassten sich die vier Fragen, die der Richter ChatGPT stellte, mit zentralen rechtlichen Fragen, die für die Entscheidung des Falles erforderlich waren:

Ist ein autistisches Kind von den Zuzahlungen für eine Therapie befreit?
Sollte in diesen Fällen eine tutela [Verfassungsklage] gewährt werden?
Ist die Zuzahlungspflicht in diesen Fällen ein Hindernis für den Zugang zu Gesundheitsdiensten?
Hat die Rechtsprechung des Verfassungsgerichts in ähnlichen Fällen positive Entscheidungen getroffen?

Richter Padilla forderte ChatGPT daher auf, sich mit zentralen rechtlichen Fragen zu befassen, die für das kolumbianische Rechtssystem sehr spezifisch sind.

Im Fall des Gerichtsbeschlusses von Richterin Quiñones befassten sich die Fragen mit Themen, die für den Klagegrund nicht wesentlich waren. Die drei Fragen zielten darauf ab, Verfahrensentscheidungen zu unterstützen, die für die Durchführung der Verhandlung im Metaversum erforderlich waren:

Was ist ein Avatar?
Welches ist die wirksamste Methode, um die Authentizität derjenigen zu überprüfen, die sich zu einer Sitzung und/oder virtuellen Anhörung anmelden?
Methode zur Überprüfung der Authentizität des Avatars im Metaversum?

Obwohl diese Fragen rein technisch erscheinen, geht es darum, wie die Richterin sicherstellt, dass die Personen, die an der Anhörung teilnehmen, die Parteien rechtmäßig vertreten, was für den Zugang zur Justiz und ein ordnungsgemäßes Verfahren von wesentlicher Bedeutung ist. Die Aussagen im Gerichtsbeschluss verdeutlichen dies: „Zum besseren Verständnis einiger Konzepte des Metaversums und der Verwaltung der Anhörung in dieser Umgebung wird sich diese Justizbehörde auf KI stützen und ChatGPT verwenden.“ Der Kürze halber werde ich in diesem Beitrag nicht auf die rechtlichen und gerechten Auswirkungen der Verwendung des Metaversums für eine Gerichtsverhandlung eingehen, aber ich empfehle den jüngsten Beitrag von Professorin Lorena Florez, in dem sie die Notwendigkeit der Bewertung der Notwendigkeit des Tools und der Umsetzung von nutzerzentrierten Ansätzen (Design Thinking) bei der Entscheidung über die Durchführung gerichtlicher Tätigkeiten erörtert.

Zusammenfassend lässt sich sagen, dass das erste Argument nicht lautet, dass Richter – und im Allgemeinen Beamte – keine Innovationen vornehmen oder neue Technologien nutzen sollten. Vielmehr sollten experimentelle Instrumente bei bestimmten staatsbezogenen Tätigkeiten nicht eingesetzt werden, und wenn Richter derzeit Zugang zu wirksameren und sichereren Instrumenten haben, sollten letztere den unerprobten vorgezogen werden.

Zweitens hätten die Antworten von ChatGPT nicht akzeptiert und für bare Münze genommen werden dürfen, sondern mit anderen, zuverlässigeren Quellen verglichen werden müssen. Im Fall des Urteils von Richter Padilla zum Beispiel waren die Antworten von ChatGPT nicht nuanciert genug. Außerdem waren die Antworten schlecht begründet. Einmal zitierte der Chatbot ein bestimmtes Gesetz, das nur am Rande mit dem Fall zu tun hat, und in einer anderen Antwort spielte ChatGPT auf die Rechtsprechung des Verfassungsgerichts an, ohne jedoch konkrete Fälle zu nennen.

In dem Urteil heißt es, dass die von ChatGPT vorgelegten Informationen „bestätigt“ werden würden. Es gibt jedoch keinen ausdrücklichen Hinweis im Text, der den Schluss zulässt, dass Richter Padilla oder sein Sachbearbeiter tatsächlich überprüft haben, ob die Antworten von ChatGPT korrekt waren. Tatsächlich habe ich die vier von Richter Padilla gestellten Fragen wiederholt, und der Chatbot hat leicht unterschiedlich geantwortet, ein Ergebnis, das angesichts der Funktionsweise des Tools nicht überraschend ist. Als ich ChatGPT aufforderte, Beispiele für die Rechtsprechung des Verfassungsgerichts zu geben, die seine Antworten rechtfertigten, erfand der Chatbot außerdem den Sachverhalt und die ratio decidendi eines Urteils und zitierte ein Urteil, das nicht existierte (Erfindung des Sachverhalts und des Urteils).

Das Argument ist also nicht, dass ChatGPT oder andere LLMs nicht zur Unterstützung der juristischen Arbeit verwendet werden sollten. Es geht vielmehr darum, dass jeder von diesen Systemen produzierte Inhalt, der direkt oder indirekt zur Ausarbeitung von Urteilen verwendet werden soll, einer strengen und gründlichen Prüfung unterzogen werden muss.

Dieser letzte Punkt leitet den dritten Grund ein, warum die beiden kolumbianischen Fälle besorgniserregend sind. Sowohl im Urteil als auch im Gerichtsbeschluss wird ausdrücklich behauptet, dass neue Technologien zur Straffung der Gerichtsverfahren beitragen können. So heißt es beispielsweise in der Entscheidung von Richter Padilla: „Der Zweck der Einbeziehung dieser KI-Texte besteht keineswegs darin, die Entscheidung des Richters zu ersetzen. Was wir wirklich anstreben, ist die Optimierung der für das Verfassen von Urteilen aufgewendeten Zeit“. In einem Radiointerview behauptete Richter Padilla außerdem, dass: „Mein einziges Anliegen ist es, die Zeitabläufe des Justizsystems zu verbessern […]. (D)iese Textfolge, die mir die künstliche Intelligenz geliefert hat, hätte mir auch ein Sachbearbeiter liefern können“.

Es stimmt, dass das Gesetz 2213 aus dem Jahr 2022 und die allgemeine Prozessordnung (Artikel 103, Gesetz 1564 aus dem Jahr 2012) unter anderem den Einsatz von Informations- und Kommunikationstechnologien für die Verwaltung und Durchführung der gerichtlichen Tätigkeit zulassen. Es ist jedoch auch richtig, dass die Gesetze darauf hinweisen, dass solche Technologien nur dann eingesetzt werden sollten, wenn sie für die Aufgabe „geeignet“ sind. Wenn ChatGPT und andere derzeit verfügbare LLMs offensichtlich unzuverlässig sind, da ihre Ausgaben dazu neigen, falsche und unrichtige Informationen zu enthalten, dann würden die Richter viel Zeit benötigen, um die Gültigkeit der von der KI generierten Inhalte zu überprüfen, wodurch jede bedeutende „Zeitersparnis“ zunichte gemacht würde. Wie bei der KI in anderen Bereichen können unter dem Deckmantel vermeintlicher „Effizienzgewinne“ die Grundrechte gefährdet werden.

Schließlich besteht die Gefahr, dass sich die Richter und ihre Sachbearbeiter zu sehr auf die Empfehlungen der KI verlassen, was zu einer so genannten „Automatisierungsverzerrung“ führt. Wie Professor Florez erklärt, „durch ein übermäßiges Vertrauen in die Unparteilichkeit oder Sicherheit des KI-Systems, wie ChatGPT, können Richter in ihrer Fähigkeit behindert werden, genaue Urteile zu fällen und ihre Umgebung zu verstehen. Dies könnte dazu führen, dass sie sich zu sehr auf die Ergebnisse automatisierter Systeme verlassen.“

Herausforderungen für Justizsysteme im Zeitalter der generativen KI

Es ist besorgniserregend, dass zwei kolumbianische Richter die Aufforderungen von ChatGPT zur Begründung ihrer Entscheidungen abgeschrieben haben, ohne gründlich zu prüfen, ob die Informationen korrekt waren. Es besteht ein hohes Risiko, dass Richter und ihre Sachbearbeiter in ganz Kolumbien beginnen, die Ergebnisse von ChatGPT zu transkribieren, als wären sie eine zuverlässige Quelle. So erklärte Richter Padilla in einem Radiointerview, dass Richter aus dem ganzen Land „sehr glücklich“ wären, weil das System „viele Stunden für die Transkription von Dingen einsparen könnte, die bereits im Internet zu finden sind“. Richter Padilla behauptete auch, dass „ChatGPT uns hilft, die besten dieser Texte aus dem Internet auszuwählen und sie auf sehr logische und kurze Weise zu dem zusammenzustellen, was wir brauchen.“ Dieses mangelnde Verständnis für die Funktionsweise von LLMs verdeutlicht, warum die Sicherstellung der digitalen Kompetenz der Justiz in Zeiten generativer KI von entscheidender Bedeutung ist.

Es besteht die Tendenz, den Zugang zu generativen KI-Tools zu erweitern, die von verschiedenen Unternehmen über Web- und App-basierte Plattformen kostenlos angeboten werden. Daher kann sich die Art der uninformierten Nutzung von KI, die wir in Kolumbien gesehen haben, über das Land hinaus ausbreiten. Außerdem könnten Kläger und Beklagte LLMs – wie ChatGPT – als Orakel nutzen, was den Interessen ihrer Klienten schadet. KI-Tools sollten in Justizangelegenheiten nur dann eingesetzt werden, wenn sie hinreichend erprobt sind und wenn keine anderen effektiveren, weniger kostspieligen und leichter zugänglichen Tools zur Verfügung stehen.

Darüber hinaus sollten die Gremien, die die Justiz verwalten, wo immer der Einsatz dieser Werkzeuge möglich ist, Leitlinien und Strategien dazu entwickeln, wie und wann bestimmte KI-Werkzeuge, einschließlich LLMs wie ChatGPT, in Gerichtsverfahren eingeführt werden können. Die Richtlinien könnten bestimmte Standards und bewährte Praktiken für Richter, Sachbearbeiter und Anwälte festlegen, die KI-Tools nutzen möchten.

Zum Beispiel sollte eine informierte, transparente, ethische und verantwortungsvolle Nutzung von KI-Tools durch Richter, Gerichtsschreiber und Anwälte die folgenden Standards einhalten: (i) der Nutzer muss verstehen, wie die Technologie funktioniert, ihre Grenzen und Risiken anerkennen und sicherstellen, dass das Tool für die gewünschte Aufgabe geeignet ist (informierte Nutzung); (ii) der Nutzer ist transparent über den Einsatz der Technologie im Verfahren (transparente Nutzung); (iii) der Nutzer unterscheidet klar, welche Abschnitte der gerichtlichen Entscheidung oder des juristischen Dokuments KI-generierter Text sind (ethische Nutzung); und (iv) der Nutzer überprüft die vom KI-System abgerufenen Informationen rigoros anhand zuverlässiger Quellen und informiert ausdrücklich über eine solche Prüfung (verantwortungsvolle Nutzung).

Die kolumbianischen Fälle könnten zu einer weltweiten Diskussion über die Bedeutung der digitalen Kompetenz von Richtern, ihren Assistenten und Anwälten sowie über die Notwendigkeit klarer Leitlinien für den Einsatz von KI-Systemen im Justizwesen beitragen.“

Diesem Fazit des Autors ist nichts hinzuzufügen.

_{Gutiérrez, Juan David: ChatGPT in Colombian Courts: Why we need to have a conversation about the digital literacy of the judiciary, VerfBlog, 2023/2/23, https://verfassungsblog.de/colombian-chatgpt/, DOI: 10.17176/20230223-185205-0}.

by Andreas Dormann