Hobbyist trainiert viktorianischen Chatbot mit 28.000 gemeinfreien Büchern

Der Schriftsteller und MFA-Absolvent Trip Venturella hat ein kleines Sprachmodell namens Mr. Chatterbox entwickelt. Es wurde ausschließlich auf viktorianischer Literatur aus der British Library trainiert. Die Datenbasis umfasst 28.035 Bücher, die zwischen 1837 und 1899 veröffentlicht wurden, mit insgesamt rund 2,93 Milliarden Tokens.

Venturella nutzte das nanochat-Framework von Andrej Karpathy sowie Claude Code, einen KI-gestützten Coding-Assistenten. Ohne formale technische Ausbildung mietete er GPU-Rechenzeit bei Vast.ai und trainierte das Modell von Grund auf, anstatt ein bestehendes anzupassen. Das fertige Modell hat 340 Millionen Parameter und belegt 2,05 Gigabyte Speicherplatz.

Das eigentliche Hindernis war nicht das Training, sondern die Konversation. Venturella durchlief acht Versionen des Modells. Er experimentierte mit Dialogen aus Romanen, Theaterstücken von Oscar Wilde und synthetischen Gesprächen, die von Claude Haiku und GPT-4o-mini erzeugt wurden. Diese synthetischen Daten halfen dem Modell, auf moderne Fragen zu antworten, brachten aber auch typische Formulierungen moderner KI-Systeme mit sich.

Der Entwickler Simon Willison testete Mr. Chatterbox und beschrieb die Antworten als eher einer Markov-Kette ähnlich als einem modernen Sprachmodell. Er wies darauf hin, dass ein Modell dieser Größe laut etablierter Forschung mindestens doppelt so viele Trainingsdaten benötigen würde, um als Gesprächspartner zu überzeugen.

Das Projekt kostete Venturella insgesamt rund 497 Dollar. Das Modell ist auf Hugging Face abrufbar.

Quellen: Trip Venturella bei Estragon, Simon Willison’s Weblog

Hobbyist trainiert viktorianischen Chatbot mit 28.000 gemeinfreien Büchern

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen