DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem Denken eines Modells nicht angemessen bewerten. Michelangelo zielt darauf ab, diese Lücke zu schließen, indem der Schwerpunkt auf das Verstehen von Beziehungen im Kontext und nicht nur auf die Suche nach Fakten gelegt wird.

Erste Auswertungen von zehn LLMs, darunter Varianten von Gemini und GPT, zeigten einen Leistungsabfall mit zunehmender Aufgabenkomplexität, was auf ein Verbesserungspotential bei diesen Fähigkeiten hinweist. Die Ergebnisse deuten darauf hin, dass Modelle in realen Anwendungen Schwierigkeiten beim Multi-Hop-Reasoning haben können, insbesondere wenn irrelevante Informationen präsent sind.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen