Warum KI-Modelle sich an langen Texten verschlucken

Große Sprachmodelle erreichen bei der Verarbeitung umfangreicher Texte zunehmend ihre technischen Grenzen, wie Timothy B. Lee in einer ausführlichen Analyse für Ars Technica berichtet. Das Hauptproblem liegt in der quadratisch steigenden Rechenleistung bei wachsender Textlänge. Aktuelle Modelle wie GPT-4o können etwa 200 Seiten Text verarbeiten, während Google’s Gemini 1.5 Pro etwa 2.000 Seiten bewältigt.

Die Beschränkung ergibt sich aus der Transformer-Architektur, bei der jedes neue Token mit allen vorherigen Tokens verglichen werden muss. Forscher arbeiten an verschiedenen Lösungsansätzen, darunter die neue Mamba-Architektur von Tri Dao und Albert Gu. Diese verspricht eine effizientere Verarbeitung langer Sequenzen, zeigt aber noch Schwächen in einigen Leistungsbereichen. Führende Unternehmen erforschen auch Hybrid-Ansätze, die verschiedene Architekturen kombinieren, um Effizienz und Leistungsfähigkeit zu optimieren.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen