Dieser KI-Detektor kann Karrieren beenden, ist aber alles andere als

Ein KI-Erkennungsprogramm namens Pangram hat sich zur zentralen Instanz entwickelt, wenn es darum geht, KI-generierten Text aufzuspüren. Das Tool beeinflusst Entscheidungen bei Verlagen, Universitäten und wissenschaftlichen Institutionen. Matteo Wong berichtet für The Atlantic, dass Pangram unter anderem einen Horroroman vor seiner Veröffentlichung zu Fall brachte und Texte in großen Zeitungen, preisgekrönte Kurzgeschichten sowie Teile der Enzyklika von Papst Leo XIV. als KI-generiert markierte.

Pangram-Chef Max Spero gibt an, das Tool stufe menschlich verfasste Texte nur in einem von 10.000 Fällen fälschlicherweise als KI-generiert ein. Eine Studie der Universität Chicago bestätigte das für Texte zwischen 500 und 1.000 Wörtern weitgehend. Schwächer ist Pangram jedoch beim Erkennen echter KI-Texte. Spero selbst verwies auf Daten, wonach das Tool KI-Inhalte in etwa einem von 70 Fällen als menschlich einstuft.

Humanizer-Tools unterlaufen die Erkennung

Sogenannte KI-Humanizer schwächen Pangrams Zuverlässigkeit zusätzlich. Wong testete ein Tool namens Walter Writes AI und stellte fest, dass Pangram KI-Artikel danach konsequent als menschlich geschrieben einstufte. Das Erkennungsverfahren von Pangram basiert auf Mustererkennung und folgt keinen expliziten Regeln. Selbst die Entwickler können die Entscheidungen des Systems kaum erklären.

Die Folgen von Fehlern sind gravierend. Die Journalistin Taylor Lorenz wurde öffentlich beschuldigt, einen Artikel für das Magazin Vanity Fair mit KI geschrieben zu haben. Spero bestätigte später, dass Pangram einen Fehler gemacht hatte. Ein Lehrer an einer New Yorker High School berichtete Wong, er zweifle daran, dass einige Schülerarbeiten vollständig menschlichen Ursprungs seien, obwohl Pangram sie als zu 100 Prozent menschlich einstufe. Eine Anschuldigung ohne eindeutige Beweise, so der Lehrer, habe in jedem Fall schwerwiegende Konsequenzen.

Spero betont, Pangram solle als Ausgangspunkt für weitere Ermittlungen dienen, nicht als endgültiges Urteil. Doch je mehr das Tool auf Plattformen wie Canvas eingesetzt wird und Millionen von Studierenden erfasst, desto mehr falsche Anschuldigungen entstehen selbst bei geringen Fehlerquoten. Der Neurowissenschaftler Tim Requarth, der an der NYU Wissenschaftsjournalismus lehrt, warnt, KI-Erkennung werde in ihrer Wirksamkeit „aus nicht vorhersehbaren Gründen zu nicht vorhersehbaren Zeitpunkten schwanken.“ Wong schlussfolgert, institutionelle Regeln auf die Zuverlässigkeit von Pangram zu stützen, gleiche dem Bau einer Sandburg bei Ebbe.

Dieser KI-Detektor kann Karrieren beenden, ist aber alles andere als zuverlässig

Humanizer-Tools unterlaufen die Erkennung

Mehr zum Thema:

Humanizer-Tools unterlaufen die Erkennung

Bleib auf dem Laufenden

Mehr zum Thema: