Forscher haben ein schlankes Speichermodul für KI-Agenten entwickelt, das Informationen über lange Interaktionen hinweg behält. Es kommt ohne größere Kontextfenster und ohne externe Datenbanksysteme aus. Das Modul trägt den Namen Delta-Mem und erweitert ein bestehendes Sprachmodell um lediglich 0,12 Prozent zusätzliche Parameter. Dabei übertrifft es deutlich größere Alternativen bei gedächtnisintensiven Aufgaben, berichtet Ben Dickson für VentureBeat.
Warum KI-Agenten vergessen
KI-Agenten, die in Unternehmensumgebungen eingesetzt werden, verlieren regelmäßig den Faden früherer Arbeitsschritte. Ein Programmierassistent kann eine Debugging-Entscheidung vergessen, die kurz zuvor getroffen wurde. Ein Datenanalyse-Agent verarbeitet unter Umständen denselben Kontext mehrfach. Die gängigen Lösungen sind ein größeres Kontextfenster oder Retrieval-Augmented Generation (RAG), ein Verfahren, das relevante Dokumente aus einer externen Datenbank abruft.
Beide Ansätze haben erhebliche Nachteile. Größere Kontextfenster treiben den Rechenaufwand stark in die Höhe. Außerdem leiden Modelle unter sogenannter Kontextdegradation: Zu viele Informationen im Prompt lassen frühere Details verschwimmen. RAG wiederum verursacht Latenz und Integrationsaufwand. Es funktioniert eher wie eine Dokumentensuche als wie echtes Gedächtnis.
Co-Autor Jingdi Lei sagte gegenüber VentureBeat: „Diese Ansätze sind nützlich und werden wichtig bleiben, aber sie werden zunehmend teuer und fehleranfällig, wenn Agenten über lange, mehrstufige Interaktionen hinweg arbeiten müssen. Sie funktionieren auch nicht wirklich wie menschliches Gedächtnis, weil sie eher einem Dokumentenabruf ähneln.“
So funktioniert Delta-Mem
Delta-Mem komprimiert vergangene Interaktionen in eine kleine, fest dimensionierte Matrix. Diese liegt neben dem Sprachmodell, ohne es zu verändern. Anstatt frühere Texte erneut zu lesen, fragt das Modell diese Matrix ab. Nach jeder Interaktion wird die Matrix mithilfe des sogenannten Delta-Rule-Lernens aktualisiert. Dabei vergleicht das System, was die Matrix vorhergesagt hat, mit dem tatsächlichen Ergebnis und passt sich entsprechend an. Ein kontrollierter Vergessenmechanismus verhindert, dass kurzfristiges Rauschen stabile, nützliche Informationen überschreibt.
Das Modul wurde auf drei Sprachmodellen getestet, darunter Qwen3-4B-Instruct und SmolLM3-3B. Auf dem Benchmark Memory Agent Bench, der Langzeitgedächtnis und Abruf prüft, stieg der Durchschnittswert von 29,54 auf 38,85 Prozent im Vergleich zum unveränderten Modell. Bei einer Teilaufgabe zum Lernen während der Laufzeit verdoppelte sich die Leistung nahezu. Besonders bemerkenswert: Diese Ergebnisse wurden auch dann erzielt, wenn historische Texte vollständig aus dem Prompt entfernt wurden. Die Matrix allein trug genug Gedächtnis.
Delta-Mem fügt einem Modell mit vier Milliarden Parametern rund 4,87 Millionen trainierbare Parameter hinzu. Ein konkurrierendes System namens MLP Memory benötigte dagegen drei Milliarden zusätzliche Parameter, was 76,40 Prozent der Modellgröße entspricht, und lieferte trotzdem schwächere Ergebnisse.
Grenzen und hybride Zukunft
Die Forscher betonen, dass Delta-Mem kein Ersatz für RAG ist. Da alle Informationen in dieselbe begrenzte Matrix komprimiert werden, können sich unterschiedliche Inhalte gegenseitig stören. Für den exakten Abruf eines Rechtsdokuments oder einer medizinischen Leitlinie bleibt eine Vektordatenbank notwendig.
Lei beschreibt die ideale Architektur als mehrschichtig:
- Delta-Mem übernimmt das kurzfristige Arbeitsgedächtnis im Modell, etwa Nutzerpräferenzen, Aufgabenstatus und aktuelle Entscheidungen.
- RAG übernimmt den umfangreichen, exakten Abruf aus externen Wissensdatenbanken.
- Eine Richtlinienebene steuert, was gespeichert, abgerufen, vergessen oder dem Nutzer angezeigt wird.
Der Code ist öffentlich auf GitHub verfügbar, die trainierten Adapter-Gewichte werden auf Hugging Face gehostet. Laut der Forscher erfordert die Integration lediglich das Anhängen des Adapters an ausgewählte Aufmerksamkeitsschichten eines bestehenden Modells sowie das Training dieser Adapter-Parameter auf relevanten Mehrrundengesprächsdaten. Ein großes Vortrainingskorpus ist nicht erforderlich.
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
