Die Harvard Universität hat einen umfangreichen Datensatz für KI-Training veröffentlicht. Wie Kate Knibbs für Wired berichtet, enthält die Sammlung fast eine Million gemeinfreier Bücher. Das von Microsoft und OpenAI finanzierte Projekt wird von der Institutional Data Initiative geleitet. Die Datensammlung umfasst klassische Werke von Shakespeare, Dickens und Dante sowie Fachtexte in verschiedenen Sprachen.
Greg Leppert, Geschäftsführer der Initiative, erklärt, dass das Projekt gleiche Chancen für kleinere KI-Entwickler und Forscher schaffen soll. Die Veröffentlichung erfolgt in Zusammenarbeit mit Google, wobei die genauen Details noch ausgearbeitet werden. Zusätzlich plant die Initiative, mit der Boston Public Library Millionen gemeinfreier Zeitungsartikel zu digitalisieren.