KI-Detection-Tools funktionieren (noch?) nicht zuverlässig.

2.Juli 2023

Ob ein Text mit einer generativen KI erstellt wurde oder nicht, lässt sich nicht eindeutig bestimmen. Das zeigt eine empirische Studie von Debora Weber-Wulff und ihrem Team.

Viele meinen, es wäre nur eine Frage der Zeit, bis sich ein von einer KI generierter Text eindeutig als solcher identifizieren lässt. Diese Vorstellung begegnet mir immer wieder bei Gesprächen und Schulungen zu ChatGPT und Co.

Dass das wohl eher nicht zuverlässig funktionieren wird, lässt sich mit den zugrundeliegenden statistischen Modellen erklären. Mit der jetzt als Preprint veröffentlichten Studie lässt sich das auch empirisch zeigen.

Die Autoren haben 12 frei verfügbare Tools und zwei kostenpflichtige Tools getestet (Turnitin und PlagiarismCheck.org), die im Hochschulbereich eingesetzt werden.

Das Vorgehen ist methodisch valide. Es wurden unterschiedliche Texte produziert: Von einem Menschen geschriebener Text; von einem Menschen geschriebener Text, der mit einem KI-Tool übersetzt wurden; unterschiedliche von einer KI geschriebenen Texte (mit und ohne Weiterbearbeitung).

Anschließend wurden die Texte von KI-Erkennungstools bewertet.

Das Hauptergebnis der Studie ist eindeutig: Die aktuell verfügbaren KI-Erkennungstools sind weder genau noch zuverlässig. Sie neigen in erster Linie dazu, die Texte als von Menschen geschrieben zu klassifizieren, anstatt KI-generierten Text zu erkennen.

Die Autoren haben ein „Genauigkeitsmaß“ entwickelt, das wiedergibt, in wie viel Prozent der Fälle, ein Text richtig klassifiziert wurde.

Zwei Ergebnisse finde ich wichtig:

(1) Bei von einem Menschen geschriebenen Texten, liegt die Genauigkeit bei 96 %. Wird ein KI-Übersetzungstools genutzt, sinkt die Genauigkeit auf 79 %. Es besteht also die Gefahr, dass ein von einem Menschen geschriebener Text fälschlicherweise als ein von einer KI-erstellter Text klassifiziert wird.

(2) Bei Texten, die von einer KI erstellt wurden, und anschließend überarbeitet wurden, liegt die Genauigkeit nur bei 50 %. Vorsicht formuliert bedeutet das: Ein von einer KI-erstellter Text, der von einem Menschen leicht überarbeitet wurde, nicht mehr zuverlässig erkannt.

Das Fazit: Aktuell können von einer KI erstellte Text können nicht zuverlässig erkannt werden, insbesondere wenn die Texte im Anschluss weiter bearbeitet wurden (von einem Menschen oder mit einem weiteren KI-Tool). Für den Hochschulkontext steht für mich deshalb aktuell außer Frage, dass die verfügbaren KI-Erkennungstools sich nicht für den produktiven Einsatz eignen.

Die Studie ist bei arXiv abrufbar unter https://lnkd.in/egDSpN2v

Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., … & Waddington, L. (2023). Testing of Detection Tools for AI-Generated Text. arXiv preprint arXiv:2306.15666

Dieser Beitrag ist zuerst erschienen auf LinkedIn.

digitalisierung, hochschule, medienkompetenz

By moskaliuk

1 Response

Einsatz von KI-Textdetekoren in Lehre & Unterricht? Zu 100 % der falsche Weg! sagt:

18. Juli 2023 um 22:04 Uhr

[…] Ob ein Text mit einer generativen KI erstellt wurde oder nicht, lässt sich nicht eindeutig bestimmen. Das zeigt eine empirische Studie von Debora Weber-Wulff (HTW Berlin) und ihrem Team. Quelle: Prof. Dr. Johannes Moskaliuk […]

Antworten

Schreibe einen Kommentar Antworten abbrechen

Comments RSS Feed

Prof. Dr. Johannes MoskaliukDiplompsychologe, Wissenschaftler, Business-Coach