Große Sprachmodelle erreichen bei der Verarbeitung umfangreicher Texte zunehmend ihre technischen Grenzen, wie Timothy B. Lee in einer ausführlichen Analyse für Ars Technica berichtet. Das Hauptproblem liegt in der quadratisch steigenden Rechenleistung bei wachsender Textlänge. Aktuelle Modelle wie GPT-4o können etwa 200 Seiten Text verarbeiten, während Google’s Gemini 1.5 Pro etwa 2.000 Seiten bewältigt.
Die Beschränkung ergibt sich aus der Transformer-Architektur, bei der jedes neue Token mit allen vorherigen Tokens verglichen werden muss. Forscher arbeiten an verschiedenen Lösungsansätzen, darunter die neue Mamba-Architektur von Tri Dao und Albert Gu. Diese verspricht eine effizientere Verarbeitung langer Sequenzen, zeigt aber noch Schwächen in einigen Leistungsbereichen. Führende Unternehmen erforschen auch Hybrid-Ansätze, die verschiedene Architekturen kombinieren, um Effizienz und Leistungsfähigkeit zu optimieren.