Anthropic gibt Einblicke in sein Multi-Agent-Recherchesystem

Anthropic hat detaillierte Einblicke in den Aufbau von Claudes Recherchefähigkeiten veröffentlicht. Das Multi-Agent-System übertrifft Einzelagent-Ansätze um 90,2 Prozent. Der Beitrag stammt von Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox und Daniel Ford von Anthropic.

Die Recherchefunktion ermöglicht Claude die Suche im Web, in Google Workspace und anderen Integrationen für komplexe Aufgaben. Anders als herkömmliche Systeme mit vorbestimmten Schritten nutzt der Multi-Agent-Ansatz mehrere parallel arbeitende KI-Agenten für offene Rechercheprobleme.

Das System verwendet ein Orchestrator-Worker-Muster. Ein Hauptagent koordiniert den Prozess und delegiert Aufgaben an spezialisierte Unteragenten. Bei Nutzeranfragen analysiert der Hauptagent die Anfrage, entwickelt eine Strategie und erstellt Unteragenten für verschiedene Aspekte. Jeder Unteragent arbeitet unabhängig mit eigenem Kontextfenster und liefert Ergebnisse an den Hauptagenten zurück.

Anthropics interne Evaluierungen zeigen besondere Stärken bei Anfragen mit mehreren unabhängigen Richtungen. Das System nutzt Claude Opus 4 als Hauptagent mit Claude Sonnet 4 Unteragenten. Bei der Suche nach Vorstandsmitgliedern von Informationstechnologie-Unternehmen im S&P 500 gelang dem Multi-Agent-System die Aufgabenteilung, während das Einzelagent-System mit langsamen sequenziellen Suchen scheiterte.

Die Token-Nutzung erwies sich als wichtigster Leistungsfaktor. Sie erklärt 80 Prozent der Varianz in Anthropics BrowseComp-Evaluation. Agenten verbrauchen typischerweise viermal mehr Token als Chat-Interaktionen. Multi-Agent-Systeme nutzen 15-mal mehr Token als normale Chats. Dieser erhöhte Ressourcenverbrauch begrenzt die Wirtschaftlichkeit auf hochwertige Aufgaben.

Der Entwicklungsprozess offenbarte wichtige Erkenntnisse zum Prompt Engineering für Multi-Agent-Koordination. Frühe Versionen machten Fehler wie das Erstellen von 50 Unteragenten für einfache Anfragen. Anthropic löste diese Probleme durch bessere Delegationstechniken und angemessene Aufwandsskalierung.

Das Unternehmen etablierte spezifische Richtlinien für verschiedene Aufgabentypen. Einfache Faktensuche benötigt einen Agenten mit drei bis zehn Tool-Aufrufen. Komplexe Recherchen können über zehn Unteragenten mit klar geteilten Verantwortungen erfordern. Parallele Tool-Aufrufe reduzierten Bearbeitungszeiten um bis zu 90 Prozent bei komplexen Anfragen.

Die Evaluation stellte einzigartige Herausforderungen dar, da Multi-Agent-Systeme verschiedene gültige Wege zu identischen Zielen nehmen können. Anthropic entwickelte flexible Bewertungsmethoden mit Fokus auf Ergebnisse statt vorgeschriebene Schritte. LLM-Richter bewerteten faktische Genauigkeit, Zitierqualität, Vollständigkeit, Quellenqualität und Tool-Effizienz.

Die Produktionsbereitstellung erforderte die Behandlung zustandsbehafteter Ausführung und Fehlerbehandlung bei langwierigen Prozessen. Anthropic implementierte Rainbow-Deployments zur Vermeidung von Agent-Störungen und Systeme für Wiederaufnahme nach Fehlern statt komplette Neustarts.

Aktuelle Limitierungen umfassen synchrone Ausführung mit Engpässen, da Hauptagenten auf Unteragenten-Abschluss warten müssen. Anthropic identifizierte asynchrone Ausführung als künftige Verbesserung für zusätzliche Parallelisierung, erkannte aber die erhöhte Koordinationskomplexität an.

Nutzer berichten über erhebliche Vorteile des Recherchesystems bei Geschäftsmöglichkeiten, Gesundheitsentscheidungen und technischen Problemen. Häufige Anwendungsfälle sind Softwareentwicklung, Content-Optimierung, Geschäftsstrategien und akademische Forschung.

Mehr zum Thema:

Bleib up-to-date: