Große Sprachmodelle können Apps entwickeln, Proteinstrukturen vorhersagen und realistische Videos erzeugen. Beim Schreiben versagen sie jedoch regelmäßig. Jasmine Sun berichtet für The Atlantic, dass moderne KI-Systeme strukturell so gebaut sind, dass gutes Schreiben aktiv verhindert wird.
Und das ist durchaus überraschend: Die leistungsfähigsten KI-Modelle haben Jahrhunderte großer Literatur verarbeitet. Ihr Output ist dennoch voll von leeren Metaphern, sich wiederholenden Satzkonstruktionen und einem künstlich fröhlichen Ton. Auch OpenAI-Chef Sam Altman räumt die Lücke ein. Selbst ein zukünftiges GPT-6 oder GPT-7, deutete er an, würde womöglich nur das produzieren, was er als „das akzeptable Gedicht eines echten Poeten“ beschrieb.
Das Problem beginnt dabei, wie diese Systeme entstehen. In einer frühen Phase namens Pretraining verarbeiten Modelle riesige Mengen an Internettexten. Der Großteil davon ist von mittelmäßiger Qualität. Diese Phase lehrt die Modelle Grammatik und Wortmuster. In einer zweiten Phase, dem sogenannten Post-Training, werden grobe Kanten geglättet. Unternehmen legen einen gewünschten „Charakter“ für ihr Modell fest, oft beschrieben als „hilfreich, ehrlich und harmlos.“ Menschliche Bewerter beurteilen die Outputs anhand detaillierter Kriterienkataloge.
Diese Kataloge offenbaren die Absurdität, gutes Schreiben messbar machen zu wollen. Ein Auftragnehmer, der für das KI-Datenunternehmen Scale AI gearbeitet hat, berichtete Sun von Regeln wie einem Limit von zwei Ausrufezeichen pro Antwort. In der Praxis bekam eine regelwidrige Antwort eine schlechtere Bewertung, selbst wenn die Bewerter sie für den besseren Text hielten. Ein anderer Bewerter wurde gebeten, Fan-Fiction auf ihre „Faktentreue“ zu beurteilen.
Sicherheitsanforderungen und kommerzielle Erwartungen verstärken das Problem zusätzlich. Modelle werden trainiert, Fehlinformationen, politische Einseitigkeit und schädliche Inhalte zu vermeiden. Außerdem werden sie auf Benchmarks für Programmierung und Naturwissenschaften optimiert. Diese Benchmarks prägen das öffentliche Bild darüber, welches KI-Unternehmen vorne liegt. Kreativität ist laut Nathan Lambert, einem Post-Training-Experten am Allen Institute for AI, ein direktes Opfer dieser Einschränkungen. „Je mehr man diese Eigenschaften kontrolliert, desto mehr unterdrückt man Kreativität,“ sagte er Sun.
Doch technische Grenzen erklären nicht alles. Mehrere Forschende und Schreibende, die Sun befragte, verwiesen auf etwas Grundlegenderes. Menschliche Autoren schöpfen aus gelebter Erfahrung, körperlicher Wahrnehmung und einer einzigartigen Perspektive. KI-Modelle können weder leben noch fühlen. Ihre Metaphern wirken unpassend. Sie meiden die rohe körperliche Sprache von Blut, Sex und Tod. Ihrem Schreiben fehlt, wie ein Schreibkursleiter es formulieren würde, das Gewicht echter Konsequenzen.
James Yu, Mitgründer des KI-Schreibwerkzeugs Sudowrite, brachte die Herausforderung auf den Punkt. Auf Suns Frage, was KI noch braucht, um einen großen Roman zu schreiben, antwortete er nach kurzem Zögern: „Vielleicht braucht man ein Modell, das ein Leben lebt und beinahe stirbt.“
Sun selbst nutzt KI nicht als Autor, sondern als Lektor. Sie gibt einem Chatbot ihre früheren Texte, erstellt einen personalisierten Kriterienkatalog und verbessert damit ihre eigene Sprache. Das Modell, argumentiert sie, funktioniert am besten, wenn es Menschen hilft, mehr wie sie selbst zu schreiben.

