39C3 Talk: Wie Wikipedia gegen KI-generierte Artikel kämpft

Mathias Schindler, langjähriger Wikipedia-Autor und Mitgründer von Wikimedia Deutschland, berichtet auf der 39C3-Konferenz in Hamburg von einer beunruhigenden Entdeckung. Bei der Entwicklung eines Tools zur Überprüfung von ISBN-Prüfsummen in der deutschsprachigen Wikipedia stieß er auf ein erhebliches Problem: Artikel mit komplett erfundenen Literaturangaben, die von großen Sprachmodellen erzeugt wurden.

Das Problem trat zutage, als Schindler ISBNs mit fehlerhaften Prüfsummen fand, die keinem realen Buch in Bibliothekskatalogen entsprachen. Die Buchtitel und Autorennamen wirkten plausibel. Teilweise wurden sogar Namen tatsächlicher Wissenschaftler aus den entsprechenden Fachgebieten verwendet. Diese Quellenangaben waren jedoch vollständig von ChatGPT und ähnlichen Tools halluziniert worden. Die entsprechenden Nutzer hatten die KI-Systeme offenbar gebeten, Wikipedia-Artikel zu schreiben, und die Ergebnisse samt erfundener Zitate einfach eingefügt.

„Diese Literaturangaben wurden halluziniert, in den meisten Fällen von ChatGPT“, erklärt Schindler während seines Vortrags. Er bezeichnet dies als „Anti-Wissen“, das Gegenteil dessen, wofür ein Enzyklopädie-Projekt steht.

Nicht nur ein Problem für Wikipedia

Das Problem betrifft nicht nur Wikipedia. Die Universitätsbibliothek Hagen berichtet von Studierenden, die nach Büchern mit plausiblen Zeitschriftennamen und Ausgabenummern fragen, die nicht existieren. Das Internationale Komitee vom Roten Kreuz warnt vor halluzinierten Quellenangaben. Bibliothekare werden teilweise beschuldigt, die Wahrheit zu verschleiern, wenn sie die nicht existierenden Quellen nicht finden können.

Schindler identifiziert mehrere mögliche Motivationen für das Einfügen von KI-Inhalten in Wikipedia. Einige verstehen die Grenzen großer Sprachmodelle möglicherweise nicht. Andere wissen, dass sie nicht sinnvoll beitragen können und kompensieren dies mit KI-Hilfe. Eine besorgniserregendere Kategorie umfasst Nutzer, die LLMs bewusst einsetzen, um Geschichte umzuschreiben oder ihre Agenda durchzusetzen.

Die Ironie dabei ist laut Schindler, dass Wikipedia als wichtige Trainingsquelle für eben diese Sprachmodelle dient. „Die Anbieter großer Sprachmodelle vergiften gewissermaßen ihren eigenen Teich, aus dem sie das Wasser trinken“, bemerkt er. KI-Unternehmen suchten mittlerweile aktiv nach Inhalten, die nachweislich frei von synthetischen Informationen sind, und zahlten dafür Aufpreise.

Neue Richtlinien als Reaktion

Wikipedia-Communities reagieren mit neuen Richtlinien. Die englischsprachige Wikipedia führte eine Schnelllöschregel für offensichtlich LLM-generierte Inhalte ein. Die deutschsprachige Wikipedia konnte durch Gemeinschaftsarbeit ISBN-Fehler reduzieren. Schindler betont jedoch, dass die Identifikation von KI-Inhalten schwierig bleibt, da die Technologie sich verbessert.

Sein Lackmustest besteht darin, Nutzer zu bitten, ihre Prompts zu teilen. Die Ausreden reichen von „Ich war nie eingeloggt“ bis zu Behauptungen, Prompt-Informationen seien sensibel. Nur wenige kommen der Bitte nach.

Schindler gibt offen zu, Claude Opus für sein ISBN-Checker-Tool verwendet zu haben. Er veröffentlichte den Code auf GitHub mit klarer Kennzeichnung. Dies sei ein akzeptabler KI-Einsatz, im Gegensatz zur Verwendung als Content-Generator.

Er fordert eine breitere Diskussion über KI-Verantwortung und bessere Kommunikation über Limitierungen. Die grundlegende Frage bleibe, ob Menschen enzyklopädisches Wissen in einer KI-gesättigten Umgebung bewahren können.

Talk ansehen

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen