Wikipedia-Freiwillige haben einen umfassenden, englischsprachigen Leitfaden zur Erkennung KI-generierter Texte in der Online-Enzyklopädie zusammengestellt. Das Dokument listet Dutzende Schreibmuster, Formatierungsauffälligkeiten und technische Merkmale auf, die auf eine Nutzung von Chatbots wie ChatGPT hinweisen.
Das WikiProject AI Cleanup veröffentlicht diesen Leitfaden als Hilfestellung für Autoren. Die Liste basiert auf Beobachtungen von Tausenden KI-generierten Artikeln und Entwürfen, die seit dem Start von ChatGPT Ende 2022 bei Wikipedia eingereicht wurden.
Große Sprachmodelle neigen demnach etwa zu übertrieben werblicher Sprache. KI-generierte Artikel beschreiben gewöhnliche Themen häufig mit ungewöhnlich starken Begriffen. Eine Käferart wird dann mit einem Mal wichtig für das „ökologische Gleichgewicht,“ während eine Kleinstadt angeblich „atemberaubende Naturschönheit“ bietet.
Die Texte enthalten außerdem häufig oberflächliche Analysen, die mit Partizipien an Sätze angehängt werden. Artikel enden zudem mit formelhaften Abschnitten über Herausforderungen und Zukunftsaussichten, die typischerweise mit Phrasen wie „Trotz seines Erfolgs steht Thema XYZ vor Herausforderungen“ beginnen.
KI-Chatbots haben außerdem Schwierigkeiten mit Wikipedias Auszeichnungssprache. Der Leitfaden weist darauf hin, dass Modelle standardmäßig Markdown-Formatierung statt Wikitext verwenden. Dies führt zu defektem Code, wenn Autoren Antworten direkt einfügen. Rauten-Symbole erscheinen dann zum Beispiel anstelle von Gleichheitszeichen für Überschriften. Typographische Anführungszeichen ersetzen gerade.
ChatGPT hinterlässt darüber hinaus charakteristische technische Spuren. Der Leitfaden identifiziert Platzhalter-Code wie „citeturn0search0,“ der erscheint, wenn Autoren Text aus der Chatbot-Oberfläche kopieren. URLs können den Tracking-Parameter „utm_source=chatgpt.com“ enthalten. Quellenangaben verwenden manchmal ungültige DOIs oder ISBNs, die auf nicht existierende Quellen verweisen.
Das Dokument warnt gleichzeitig davor, sich allein auf KI-Erkennungstools zu verlassen. Diese haben erhebliche Fehlerquoten. Viele aufgeführte Indikatoren erscheinen auch in menschlichen Texten, da Sprachmodelle schließlich überwiegend mit Texten trainiert werden, die von Menschen geschrieben wurden. Kein einzelnes Zeichen kann deshalb KI-Nutzung beweisen.
Autoren sollten nach Kombinationen von Zeichen suchen statt nach einzelnen Vorkommen. Selbst wenn oberflächliche Probleme behoben sind, bleiben aber tiefere Probleme bestehen: KI-generierte Inhalte fehlen beispielsweise oft die spezifischen Details und ungewöhnlichen Fakten, die Wikipedia-Artikel nützlich machen. Stattdessen ersetzen sie diese durch allgemeine Aussagen, die viele Themen beschreiben könnten.
Drei spezifische Merkmale ermöglichen sofortige Löschung nach Wikipedia-Richtlinien: Im Text vorhandene Hinweise des KI-Bots an den Nutzer wie „Ich hoffe, das hilft,“ Verweise auf Wissensstände bis zu bestimmten Daten und komplett erfundene Quellenangaben.
Der Leitfaden erkennt an, dass manche Muster generelle Internet-Schreibtrends widerspiegeln. Microsoft Word und mobile Geräte fügen etwa typographische Anführungszeichen automatisch ein. Briefartige Formatierung mit Grußformeln beweist ebenfalls nicht allein KI-Nutzung. Perfekte Grammatik allein bedeutet ebenfalls erst einmal nichts, da viele Wikipedia-Autoren erfahrene Schreiber sind.
ChatGPT startete am 30. November 2022 für die Öffentlichkeit. Der Leitfaden weist darauf hin, dass vor diesem Datum zu Wikipedia hinzugefügter Text sehr wahrscheinlich nicht KI-generiert ist, trotz gelegentlicher zufälliger Übereinstimmungen mit aufgeführten Mustern.