Korrigieren mit KI

18.03.2026 in Jura & Lehre

Ein Hochrisikofall nach dem EU AI Act?

Ein Erfahrungsbericht aus der Lehre mit anschließender rechtlicher Einordnung

1. Der Ausgangspunkt: Ein Experiment

Im ersten Quartal 2026 habe ich in meinen Vorlesungen zum Öffentlichen Recht ein kleines Experiment gewagt. Die Veranstaltung schloss mit einem Leistungstest ab. Neben klassischen Multiple-Choice-Fragen enthielt der Test auch zwei offene Freitextfragen. Die Studierenden mussten dabei rechtliche Argumentationen entwickeln und zentrale Begriffe aus dem behandelten Stoff korrekt einordnen.

Für die Auswertung dieser beiden offenen Fragen habe ich erstmals selbst entwickelte KI-Assistenten eingesetzt. Die Idee war simpel: Die KI sollte die studentischen Antworten analysieren und mir einen strukturierten Bewertungsvorschlag liefern. Konkret bestand die Aufgabe der Assistenz darin,

zentrale Argumentationsbestandteile zu identifizieren,
die Antworten mit einem zuvor definierten Erwartungshorizont abzugleichen und
einen Vorschlag für eine Punktevergabe zu machen.

Wichtig ist dabei ein entscheidender Punkt: Die KI traf keine Bewertung selbstständig. Sie erzeugte lediglich einen Vorschlag, der anschließend von mir geprüft und gegebenenfalls korrigiert wurde. Die finale Bewertung blieb vollständig in meiner Hand.

In der Praxis funktionierte dieses Vorgehen überraschend gut. Die KI identifizierte relevante Argumentationsstrukturen, markierte fehlende Aspekte und half dabei, die Antworten schneller miteinander zu vergleichen. Aus didaktischer Sicht war der Einsatz vor allem eines: ein Assistenzwerkzeug zur Effizienzsteigerung.

Bis ein Kollege eine Frage stellte, die mich ins Grübeln brachte.

2. Der kritische Einwurf

„Darfst du das überhaupt?“

Die Frage kam in einer informellen Diskussion über digitale Lehrformate. Der Kollege präzisierte: „Das Bewerten von Leistungen mit KI ist doch im EU AI Act als Hochrisikoanwendung eingestuft.“

Der Einwand war nicht aus der Luft gegriffen. Seit der Verabschiedung des europäischen AI Act steht insbesondere der Einsatz von KI in sensiblen Bereichen unter besonderer Beobachtung. Bildung gehört ausdrücklich dazu. Die zentrale Frage lautet daher: Ist der Einsatz eines KI-Assistenten zur Bewertung studentischer Leistungen ein Hochrisikofall im Sinne des EU AI Act? Und wenn ja: Was bedeutet das konkret für die Hochschulpraxis?

3. Der EU AI Act: Ein kurzer Überblick

Grundlage der Regulierung ist die Verordnung (EU) 2024/1689, der sogenannte EU AI Act (deutsch: KI-Verordnung). Sie wurde im Juni 2024 verabschiedet und schafft erstmals einen umfassenden europäischen Rechtsrahmen für den Einsatz künstlicher Intelligenz.

Eine gute Überblicksdarstellung findet sich etwa auf der Informationsseite der Europäischen Kommission: https://digital-strategy.ec.europa.eu/de/policies/regulatory-framework-ai

Der AI Act verfolgt einen risikobasierten Regulierungsansatz. Nicht jede KI wird gleich behandelt. Stattdessen unterscheidet die Verordnung mehrere Risikokategorien:

Unzulässiges Risiko
Bestimmte Anwendungen sind vollständig verboten (z. B. staatliches Social Scoring).
Hochrisiko-KI
Diese Systeme sind erlaubt, unterliegen aber strengen regulatorischen Anforderungen.
Begrenztes Risiko
Hier gelten hauptsächlich Transparenzpflichten.
Minimales Risiko
Für viele KI-Anwendungen gelten keine besonderen Anforderungen.

Der Gesetzgeber geht also nicht davon aus, dass KI grundsätzlich problematisch ist. Entscheidend ist vielmehr der Kontext der Anwendung. Der Bildungsbereich taucht im AI Act ausdrücklich auf – und zwar im Katalog der möglichen Hochrisikosysteme.

4. Bildung als Hochrisikobereich

Der AI Act nennt in Artikel 6 in Verbindung mit Anhang III bestimmte Anwendungsfelder, die typischerweise als Hochrisiko gelten. Dazu gehört auch der Einsatz von KI im Bildungsbereich. Konkret werden in Anhang III Nr. 3 AI Act unter anderem KI-Systeme genannt, die verwendet werden für:

Entscheidungen über den Zugang zu Bildungseinrichtungen,
die Einstufung des Bildungsniveaus oder
die Bewertung von Lernergebnissen („evaluate learning outcomes“) in Bildungs- und Ausbildungseinrichtungen.

Der Grund für diese Einordnung liegt auf der Hand. Bildungsentscheidungen haben häufig erhebliche Auswirkungen auf Lebens- und Karrierewege. Fehlerhafte oder diskriminierende Systeme könnten hier besonders gravierende Folgen haben. Vor diesem Hintergrund erscheint der Einwand meines Kollegen zunächst plausibel. Wenn eine KI bei der Bewertung von Prüfungsleistungen eingesetzt wird, könnte man argumentieren, dass genau ein solcher Hochrisikofall vorliegt.

Doch der Blick in die Systematik des AI Act zeigt schnell: Es kommt darauf an…

5. Hochrisiko bedeutet nicht Verbot

Ein verbreitetes Missverständnis besteht darin, „Hochrisiko“ mit „unzulässig“ gleichzusetzen. Das ist nicht der Fall. Der AI Act verbietet nur eine kleine Gruppe besonders problematischer Anwendungen. Dazu gehören etwa Systeme, die Menschen manipulieren oder umfassendes Social Scoring ermöglichen.

Hochrisiko-KI ist dagegen grundsätzlich erlaubt.

Allerdings müssen bestimmte Anforderungen erfüllt werden. Dazu gehören insbesondere:

ein Risikomanagementsystem,
Dokumentationspflichten,
Anforderungen an Datenqualität,
Transparenz über Funktionsweise und Einsatz sowie
Maßnahmen zur menschlichen Aufsicht.

Eine Ampel mit drei Stufen: 🔴 verboten 🟡 Hochrisiko (reguliert) 🟢 erlaubt / minimal risk

Gerade der letzte Punkt ist für den Bildungsbereich zentral. Der AI Act verlangt ausdrücklich, dass Hochrisiko-Systeme so gestaltet sein müssen, dass eine wirksame menschliche Aufsicht („human oversight“) möglich bleibt. Diese Anforderung findet sich in Artikel 14 AI Act. Der Gesetzgeber geht also davon aus, dass kritische Entscheidungen nicht vollständig automatisiert getroffen werden sollten. Stattdessen soll ein Mensch die Möglichkeit haben, Entscheidungen zu überprüfen und zu korrigieren.

Damit rückt ein entscheidender Aspekt meines eigenen Szenarios in den Mittelpunkt.

6. Automatische Bewertung oder Assistenz?

Der AI Act differenziert nicht nur nach Anwendungsbereichen, sondern auch nach der Rolle der KI im Entscheidungsprozess. Hier lassen sich drei idealtypische Konstellationen unterscheiden.

a. Vollautomatische Bewertung

Die KI bewertet Prüfungen selbstständig und erzeugt unmittelbar das finale Ergebnis. Der menschliche Prüfer greift nicht mehr ein. Ein solches System würde unter die Kategorie der Hochrisiko-KI fallen.

b. KI als entscheidungsrelevantes Bewertungssystem

Die KI erstellt Bewertungen, die zwar formal noch überprüft werden können, in der Praxis aber weitgehend übernommen werden. Auch hier spricht viel für eine Einstufung als Hochrisikosystem. In der Literatur wird deshalb darauf hingewiesen, dass etwa algorithmische Scoring-Systeme oder automatisierte Bewertungssysteme für Prüfungen typischerweise unter diese Kategorie fallen können.

c. KI als Assistenzsystem

Die KI erstellt lediglich Analyse- oder Strukturierungsvorschläge, während die eigentliche Bewertung vollständig durch den Prüfer erfolgt. In dieser Konstellation verändert sich die rechtliche Einordnung erheblich. Die KI ist dann kein automatisiertes Bewertungssystem, sondern ein Werkzeug zur Unterstützung der menschlichen Entscheidung.

7. Ein Blick auf das konkrete Beispiel

In meinem Experiment erfüllte die KI mehrere unterstützende Funktionen:

Sie identifizierte relevante Begriffe in den Antworten.
Sie verglich die Argumentation mit einem Erwartungshorizont.
Sie schlug eine mögliche Punktevergabe vor.

Die endgültige Bewertung erfolgte jedoch erst nach einer manuellen Prüfung. In vielen Fällen habe ich die Vorschläge nur teilweise übernommen und Punktwerte nach oben oder unten angepasst. Darin liegt der maßgebliche Unterschied: Die KI war nicht der Prüfer. Sie war lediglich ein Analysewerkzeug.

Vergleichbare Hilfsmittel existieren im akademischen Alltag bereits seit langem:

Plagiatserkennungssoftware,
automatische Textanalyseprogramme oder
digitale Bewertungsraster.

Der Einsatz eines KI-Assistenten verschiebt diese Praxis lediglich auf eine neue technische Ebene.

8. Welche Pflichten könnten trotzdem entstehen?

Selbst wenn man ein solches Assistenzsystem nicht als klassisches Hochrisiko-KI-System einordnet, bleiben einige Fragen relevant. Insbesondere drei Aspekte verdienen Aufmerksamkeit.

a. Transparenz

Studierende sollten wissen, dass bei der Auswertung ihrer Antworten digitale Assistenzsysteme eingesetzt werden. Das bedeutet nicht zwangsläufig eine detaillierte technische Offenlegung. Ein Hinweis auf den Einsatz KI-gestützter Analysewerkzeuge kann jedoch sinnvoll sein.

b. Nachvollziehbarkeit

Bewertungen müssen weiterhin begründbar und überprüfbar bleiben. Das ist im Prüfungsrecht ohnehin eine zentrale Anforderung. Die KI darf daher nicht als „Black Box“ fungieren, deren Ergebnisse unkritisch übernommen werden.

c. Menschliche Entscheidungshoheit

Die finale Bewertung muss beim Prüfer bleiben. Gerade dieser Punkt entspricht einem Kernprinzip des AI Act: der sogenannten human oversight (siehe unter Ziffer 5).

9. Eine praktische Zwischenbilanz

Die Diskussion über KI in der Lehre bewegt sich häufig zwischen zwei Extremen: Auf der einen Seite steht die Vorstellung, KI könne Prüfungen vollständig automatisieren. Auf der anderen Seite die Befürchtung, jeder Einsatz von KI sei rechtlich problematisch oder sogar verboten. Beides greift zu kurz.

Der AI Act verfolgt einen deutlich differenzierteren Ansatz. Er erkennt an, dass KI in vielen Kontexten sinnvoll eingesetzt werden kann – solange bestimmte Schutzmechanismen vorhanden sind. Gerade Assistenzsysteme, die menschliche Entscheidungen unterstützen, passen gut in dieses regulatorische Konzept.

10. Die eigentliche Herausforderung

Die entscheidende Frage lautet daher nicht nur: „Dürfen wir KI in der Prüfungsbewertung einsetzen?“ Sondern vielmehr: Wie gestalten wir den Einsatz so, dass er didaktisch sinnvoll und rechtlich verantwortbar ist? Dazu gehören mehrere Punkte:

klare Erwartungshorizonte für KI-Analysen,
transparente Bewertungsmaßstäbe und
eine konsequente menschliche Kontrolle.

In gewisser Weise zwingt uns der AI Act damit zu etwas, das ohnehin gute Prüfungspraxis ist: Bewertungskriterien sorgfältig zu reflektieren.

11. Fazit

Vielleicht zeigt gerade dieses Beispiel etwas Grundsätzliches über die Regulierung von KI im Bildungsbereich: Der EU AI Act verbietet nicht den Einsatz von KI in der Bewertung von Leistungen. Er verlangt vielmehr, dass wir uns darüber klar werden, welche Rolle die KI im Entscheidungsprozess spielt. Eine KI, die eigenständig Prüfungsentscheidungen trifft, berührt unmittelbar Fragen von Fairness, Transparenz und Grundrechtsschutz – und wird deshalb im AI Act zu Recht als Hochrisikosystem behandelt. Eine KI, die lediglich als Analyse- oder Strukturierungshilfe dient, verändert dagegen nicht die Entscheidung selbst, sondern nur die Arbeitsweise des Prüfers.

Vielleicht liegt genau darin die eigentliche Pointe des AI Act:

Er zwingt uns nicht dazu, KI aus der Lehre herauszuhalten.
Er zwingt uns dazu, bewusster über ihre Rolle nachzudenken.

Für die Hochschullehre könnte das am Ende sogar ein Gewinn sein.

Mein kleines Experiment in der Ö-Recht-Prüfung war deshalb kein Grenzfall des AI Act – sondern eher ein Beispiel dafür, wie sich neue Technologien mit der klassischen Verantwortung des Prüfers verbinden lassen.

Wer sich vertieft mit dem europäischen Rechtsrahmen für KI beschäftigen möchte, findet eine verständliche Übersicht direkt auf der Informationsplattform der Europäischen Kommission: Zur Übersichtsseite der Europäischen Kommission zum AI Act

by Andreas Dormann