Warum dein KI-Assistent dieses Jahr klüger wurde, aber immer noch an simplen Aufgaben scheitert

Die Entwicklung großer Sprachmodelle hat im Jahr 2025 grundlegende Veränderungen durchlaufen. Neue Trainingsmethoden und überraschende Fähigkeiten offenbaren eine fundamental andere Form von Intelligenz als erwartet. KI-Forscher Andrej Karpathy schreibt in seinem Blog über sechs große Veränderungen, die das Jahr prägten.

Die bedeutendste Neuerung ist eine Trainingstechnik namens Reinforcement Learning from Verifiable Rewards (RLVR). Sie hat sich als Standardverfahren bei der Entwicklung von Produktionsmodellen etabliert. Anders als frühere Trainingsmethoden, die menschliches Feedback benötigten, trainiert RLVR Modelle gegen automatisch überprüfbare Belohnungen. Diese kommen aus Umgebungen wie Mathematik- und Programmierrätseln. Der Ansatz ermöglicht es Modellen, spontan Argumentationsstrategien zu entwickeln und Probleme in Zwischenschritte zu zerlegen. OpenAIs o3-Modell, Anfang 2025 veröffentlicht, markierte den deutlichen Wendepunkt für diese Technologie.

Die neue Trainingsmethode verbrauchte Rechenressourcen, die ursprünglich für andere Zwecke vorgesehen waren. Das Ergebnis sind ähnlich große Modelle, aber mit deutlich längeren Trainingsphasen. RLVR brachte auch eine neue Fähigkeit: Modelle können jetzt längere Argumentationsketten erzeugen und ihre „Denkzeit“ erhöhen, um schwierigere Probleme zu lösen.

Karpathy beschreibt einen entscheidenden konzeptionellen Wandel im Verständnis dieser Modelle. „Wir trainieren keine Tiere, wir beschwören Geister“, schreibt er. LLMs zeigen eine „gezackte Intelligenz“. Sie haben Fähigkeitsspitzen in überprüfbaren Bereichen, bleiben aber in anderen überraschend schwach. Ein Modell kann gleichzeitig als genialer Universalgelehrter und als verwirrter Grundschüler agieren, der Sekunden davon entfernt ist, auf einen simplen Trick hereinzufallen.

Diese gezackte Natur hat zu einem „Vertrauensverlust in Benchmarks“ geführt, wie Karpathy es nennt. Weil Benchmarks überprüfbare Umgebungen sind, können Labore Modelle gezielt darauf optimieren. Das erzeugt Fähigkeitsspitzen, die keine allgemeine Intelligenz widerspiegeln.

Das Jahr brachte auch neue Anwendungsebenen hervor. Cursor, ein Programmierassistent, zeigte eine eigene Kategorie von „LLM-App“. Diese bündelt mehrere Modellaufrufe für spezifische Aufgaben. Solche Anwendungen handhaben Kontext-Engineering, balancieren Leistungs- und Kostenabwägungen und bieten spezialisierte Schnittstellen für menschliche Aufsicht.

Claude Code führte ein neues Paradigma ein, indem es direkt auf den Computern der Nutzer läuft statt in der Cloud. Dieser Ansatz gibt der KI Zugang zu lokalem Kontext, Daten und Konfiguration. Das verwandelt sie von einer Website in einen „kleinen Geist, der auf Ihrem Computer lebt“, wie Karpathy schreibt.

Die Fähigkeitsverbesserungen ermöglichten „Vibe Coding“. Menschen können damit Software in natürlicher Sprache erstellen, ohne den zugrundeliegenden Code zu sehen. Dieser Ansatz befähigt Nicht-Programmierer und Profis gleichermaßen, Anwendungen zu erstellen, die sonst nie geschrieben würden.

Googles Gemini Nano banana-Modell deutet einen weiteren Paradigmenwechsel an. Karpathy vergleicht aktuelle textbasierte Chat-Schnittstellen mit Befehlen an eine Computerkonsole der 1980er Jahre. So wie grafische Benutzeroberflächen das traditionelle Computing veränderten, müssen LLMs visuell kommunizieren. Sie sollten Bilder, Infografiken und Animationen nutzen statt Text allein.

Karpathy schlussfolgert, dass LLMs eine neue Form von Intelligenz darstellen. Sie sind gleichzeitig schlauer und dümmer als erwartet. Die Industrie hat weniger als zehn Prozent ihres Potenzials bei den aktuellen Fähigkeiten realisiert.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen