Forscher am Massachusetts Institute of Technology (MIT) haben eine Technik entwickelt, mit der sich große Sprachmodelle eigenständig verbessern können. Darüber berichtet Carl Franzen für VentureBeat. Die Methode namens SEAL ermöglicht es einer KI, ihre eigenen Trainingsdaten autonom zu erzeugen.
Anstatt auf externe Datensätze angewiesen zu sein, erstellen Modelle mit dem SEAL-System Anweisungen für sich selbst. Diese sogenannten „Self-Edits“ legen fest, wie das Modell sein internes Wissen aktualisieren soll. Anschließend nutzt das Modell diese Anweisungen, um sich selbst zu trainieren. Ein als Reinforcement Learning bekannter Prozess steuert diese Selbstverbesserung. Er belohnt Änderungen, die zu einer besseren Leistung bei bestimmten Aufgaben führen.
Die Forscher berichten von signifikanten Leistungssteigerungen durch diesen Ansatz. In einem Test zum Textverständnis erhöhte sich die Genauigkeit des Modells von 33,5 % auf 47,0 %. Bei einer anderen Aufgabe, die logisches Schlussfolgern erforderte, stieg die Erfolgsquote auf 72,5 %. Das System übertraf in einem Szenario sogar die Ergebnisse von synthetischen Daten, die mit dem fortschrittlichen Modell GPT-4.1 erzeugt wurden.
Die Technik ist vielversprechend, doch es bleiben Herausforderungen. Der Prozess erfordert eine hohe Rechenleistung. Zudem besteht das Risiko, dass das Modell zuvor Gelerntes vergisst, was als „katastrophales Vergessen“ bekannt ist. Laut den Forschern hilft Reinforcement Learning, dieses Problem zu verringern.
SEAL gilt als wichtiger Schritt zu anpassungsfähigeren KI-Systemen. Solche Modelle könnten sich kontinuierlich weiterentwickeln und neues Wissen ohne ständige menschliche Aufsicht integrieren. Der Quellcode des Projekts wurde unter einer Open-Source-Lizenz veröffentlicht.
