Dieses neue System für KI-Agenten repariert seine Werkzeuge mitten im

Forscher bei Xiaomi haben ein KI-Framework entwickelt, das die Softwareschicht zwischen einem KI-Modell und seinen Werkzeugen bei Bedarf automatisch anpasst. Ben Dickson berichtet für VentureBeat über das System namens HarnessX. Es behandelt den sogenannten Harness nicht als festes Konstrukt, sondern als etwas, das sich selbst verbessern kann.

Ein Harness ist im Prinzip das Gerüst, das ein KI-Modell mit seiner Umgebung verbindet. Es steuert, welche Werkzeuge das Modell nutzt, wie es Informationen verarbeitet und wie es Aufgaben abarbeitet. Bislang erstellen Entwickler dieses Gerüst manuell und passen es bei Bedarf von Hand an.

HarnessX überwacht stattdessen, wie ein KI-Agent bei echten Aufgaben abschneidet. Es erkennt Fehler und schreibt die betroffenen Teile des Harness eigenständig neu.

Deutliche Leistungssteigerungen in Tests

Die Forscher testeten HarnessX in fünf Aufgabenbereichen, darunter Softwareentwicklung, Webnavigation und mehrstufiges Reasoning. Die wichtigsten Ergebnisse:

Durchschnittlich +14,5 Prozent Leistungszuwachs über 15 Modell-Benchmark-Kombinationen
+44 Prozent Verbesserung beim kleineren Open-Weight-Modell Qwen3.5-9B bei Planungsaufgaben
Zusätzliche +4,7 Prozent, wenn das zugrundeliegende Modell gleichzeitig mit den beim Harness-Training gewonnenen Daten weiterentwickelt wurde

Ein anschauliches Beispiel aus den Tests: Bei einer Web-Shopping-Aufgabe klickte ein KI-Agent immer wieder durch Suchergebnisse, ohne je einen Kauf abzuschließen. HarnessX erkannte das Muster und ergänzte automatisch einen Mechanismus, der den Agenten zur Entscheidung zwang. Das Problem war behoben.

Eine aktuelle Einschränkung: HarnessX benötigt selbst ein leistungsstarkes Modell, hier Claude Opus, um neuen Harness-Code zu schreiben. Ob kleinere Open-Weight-Modelle diese Rolle übernehmen können, ist noch nicht getestet. Außerdem hilft auch der beste Harness nicht weiter, wenn das eingesetzte Modell grundsätzlich zu schwach für einen bestimmten Workflow ist.

Für Teams, die mit kleineren und kostengünstigeren Modellen arbeiten, zeigen die Ergebnisse: Eine Verbesserung des Harness kann erhebliche Leistungsgewinne bringen, bevor man in ein teureres Modell investiert. Den Code wollen die Forscher künftig öffentlich zugänglich machen.

Dieses neue System für KI-Agenten repariert seine Werkzeuge mitten im Einsatz

Deutliche Leistungssteigerungen in Tests

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Deutliche Leistungssteigerungen in Tests

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen