Neue Quellen für bessere KI-Trainingsdaten

Große Sprachmodelle (LLMs) werden nicht mehr nur mit Daten aus dem Internet trainiert. Früher basierten LLMs auf dem riesigen Datenfundus des Internets, doch die Grenzen dieses Ansatzes sind erreicht. Um LLMs weiterzuentwickeln, greifen Unternehmen wie OpenAI auf neue Datentypen zurück: Gezielte Kommentierung und Filterung verbessern die Qualität bestehender Daten, menschliches Feedback optimiert das Verhalten der Modelle, und die Nutzung eigener Daten, wie Chatverläufe und interne Dokumente, erweitert den Trainingsumfang. Doch die größte Veränderung kommt von neuen Ansätzen: Dazu gehören synthetische Daten, die von den LLMs selbst generiert werden, sowie von Menschen erstellte Datensätze, die gezielt Lücken im Internet-Training schließen. Sie ermöglichen es, Fähigkeiten zu verbessern, die bisher nur unzureichend trainiert werden konnten. So werden LLMs nicht nur zu „Internet-Simulatoren“, sondern lernen, komplexere Aufgaben zu bewältigen, die im Internet nicht ausreichend repräsentiert sind.

Mehr zum Thema:

Bleib up-to-date: