Aktuelle Forschungsergebnisse haben zwei vielversprechende Ansätze aufgedeckt, die die Kosten für den Betrieb großer Sprachmodelle (LLMs) drastisch reduzieren und gleichzeitig ihre Leistung bei komplexen Denkaufgaben verbessern könnten. Diese Innovationen kommen zu einem kritischen Zeitpunkt, da Unternehmen zunehmend KI-Lösungen einsetzen, aber mit Rechenkosten kämpfen.
Chain of draft: Weniger ist mehr
Forscher bei Zoom Communications haben eine Technik namens „Chain of Draft“ (CoD) entwickelt, die es LLMs ermöglicht, Probleme mit minimalem Text zu lösen. Laut ihrer auf arXiv veröffentlichten Studie verwendet die Methode nur etwa 7,6% des Textes, der bei aktuellen Methoden erforderlich ist, während sie die Genauigkeit beibehält oder sogar verbessert.
CoD ist von menschlicher Problemlösung inspiriert, bei der sich Personen typischerweise nur wesentliche Informationen notieren, anstatt jedes Detail. Dieser Ansatz übertragen in die KI-Welt reduziert den Rechenaufwand drastisch, ohne die Leistung zu beeinträchtigen.
Bei Tests mit Claude 3.5 Sonnet bei sportbezogenen Fragen reduzierte CoD die durchschnittliche Ausgabe beispielsweise von 189,4 Tokens auf nur 14,3 Tokens – eine Reduktion um 92,4% – während gleichzeitig die Genauigkeit von 93,2% auf 97,3% verbessert wurde.
Die finanziellen Auswirkungen sind erheblich. Laut KI-Forscher Ajith Vallath Prabhakar „könnte ein Unternehmen, das monatlich 1 Million Reasoning-Abfragen verarbeitet, die Kosten von 3.800 Dollar auf 760 Dollar senken und so über 3.000 Dollar pro Monat einsparen.“
Chain of experts: Sequenzielle Effizienz
Ein anderer Ansatz, genannt „Chain of Experts“ (CoE), verbessert die Effizienz, indem spezialisierte Teile eines Modells sequenziell statt parallel aktiviert werden. Diese Struktur ermöglicht es, Zwischenergebnisse zu kommunizieren und auf der Arbeit der anderen Teile aufzubauen.
Herkömmliche Mixture-of-Experts (MoE)-Modelle verbessern bereits die Effizienz, indem sie nur bestimmte „Experten“ für jede Eingabe auswählen, aber CoE geht noch weiter. Durch die Umstrukturierung des Informationsflusses durch das Modell erzielt CoE bessere Ergebnisse bei ähnlichem Rechenaufwand.
Forscher stellten fest, dass CoE-Modelle sowohl dichte LLMs als auch MoEs übertreffen, wenn sie mit gleichen Rechenressourcen arbeiten. Beispielsweise übertraf ein CoE mit 64 Experten, 4 gerouteten Experten und 2 Inferenziterationen ein MoE mit 64 Experten und 8 gerouteten Experten bei mathematischen Benchmarks.
CoE reduziert auch den Speicherbedarf. Eine CoE-Konfiguration erzielte beispielsweise eine ähnliche Leistung wie ein größeres MoE, benötigte dabei aber 17,6% weniger Speicher.
Einfache Implementierung für sofortige Wirkung
Was beide Techniken besonders wertvoll für Unternehmen macht, ist ihre einfache Implementierung. Sowohl CoD als auch CoE lassen sich offenbar mit bestehenden Modellen einsetzen, ohne teure Neutrainings oder architektonische Änderungen.
Diese Ansätze könnten besonders wertvoll sein für latenzempfindliche Anwendungen wie Echtzeit-Kundensupport, mobile KI, Bildungstools und Finanzdienstleistungen, wo selbst kleine Verzögerungen die Benutzererfahrung erheblich beeinträchtigen.