Wissenschaftler der Universität Zürich und der Universität zu Köln erstellen große Sprachmodelle, die ausschließlich auf historischen Dokumenten bis zu bestimmten Daten trainiert wurden. Das Team um Daniel Göttlich, Dominik Loibner, Guohui Jiang und Hans-Joachim Voth beschreibt das Projekt auf GitHub.
Die Modelle heißen Ranke-4B und verfügen über vier Milliarden Parameter. Sie wurden auf 80 Milliarden Token historischer Daten trainiert. Fünf Versionen existieren mit Wissensgrenzen in den Jahren 1913, 1929, 1933, 1939 und 1946. Das Training nutzt einen kuratierten Datensatz von 600 Milliarden Token zeitgestempelter Texte.
Diese Modelle können nicht auf Informationen nach ihren Stichtagen zugreifen. Diese Informationen existieren schlichtweg nicht in ihren Trainingsdaten. Ein bis 1913 trainiertes Modell kann beispielsweise nicht über den Ersten Weltkrieg sprechen, weil der Krieg noch nicht stattgefunden hatte.
Die Forscher erklären, dass moderne Sprachmodelle unter „Rückschau-Kontamination“ leiden: Selbst wenn sie historische Perspektiven nachspielen sollen, wissen sie, wie Ereignisse ausgingen. Zeitlich festgelegte Modelle verkörpern dagegen vollkommen ihre Trainingsdaten, anstatt nur so zu tun als ob.
Das Team versteht die Modelle als Werkzeuge zur Erforschung historischer Diskursmuster. Die Forscher räumen ein, dass die Modelle problematische Ansichten aus historischen Quellen reproduzieren, darunter Rassismus und Antisemitismus. Dies sei wichtig, um zu verstehen, wie solche Ideologien Fuß gefasst haben.
Das Projekt plant, alle Trainingsdaten, Modelle und Code-Repositories öffentlich zu machen.
