Hobbyist trainiert viktorianischen Chatbot mit 28.000 gemeinfreien Büchern

Der Schriftsteller und MFA-Absolvent Trip Venturella hat ein kleines Sprachmodell namens Mr. Chatterbox entwickelt. Es wurde ausschließlich auf viktorianischer Literatur aus der British Library trainiert. Die Datenbasis umfasst 28.035 Bücher, die zwischen 1837 und 1899 veröffentlicht wurden, mit insgesamt rund 2,93 Milliarden Tokens.

Venturella nutzte das nanochat-Framework von Andrej Karpathy sowie Claude Code, einen KI-gestützten Coding-Assistenten. Ohne formale technische Ausbildung mietete er GPU-Rechenzeit bei Vast.ai und trainierte das Modell von Grund auf, anstatt ein bestehendes anzupassen. Das fertige Modell hat 340 Millionen Parameter und belegt 2,05 Gigabyte Speicherplatz.

Das eigentliche Hindernis war nicht das Training, sondern die Konversation. Venturella durchlief acht Versionen des Modells. Er experimentierte mit Dialogen aus Romanen, Theaterstücken von Oscar Wilde und synthetischen Gesprächen, die von Claude Haiku und GPT-4o-mini erzeugt wurden. Diese synthetischen Daten halfen dem Modell, auf moderne Fragen zu antworten, brachten aber auch typische Formulierungen moderner KI-Systeme mit sich.

Der Entwickler Simon Willison testete Mr. Chatterbox und beschrieb die Antworten als eher einer Markov-Kette ähnlich als einem modernen Sprachmodell. Er wies darauf hin, dass ein Modell dieser Größe laut etablierter Forschung mindestens doppelt so viele Trainingsdaten benötigen würde, um als Gesprächspartner zu überzeugen.

Das Projekt kostete Venturella insgesamt rund 497 Dollar. Das Modell ist auf Hugging Face abrufbar.

Quellen: Trip Venturella bei Estragon, Simon Willison’s Weblog

Bleib auf dem Laufenden

KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:

 

Weitere Infos …

Über den Autor

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen