KI scheitert an anspruchsvollem Mathe-Benchmark

Epoch AI hat mit FrontierMath einen neuen Benchmark entwickelt, der die Grenzen der mathematischen Fähigkeiten von KI-Systemen aufzeigt. Der Test umfasst Hunderte von anspruchsvollen Mathe-Aufgaben, die tiefgreifendes Verständnis und Kreativität erfordern. Laut Epoch AI lösen selbst fortschrittliche KI-Modelle wie GPT-4o und Gemini 1.5 Pro weniger als 2 % dieser Aufgaben. FrontierMath wurde in Zusammenarbeit mit … Weiterlesen …

OpenAI und andere suchen neue Strategien für schnellere KI-Fortschritte

OpenAI entwickelt Berichten zufolge neue Strategien, um mit einer Verlangsamung der KI-Fortschritte umzugehen. Laut The Information stellten OpenAI-Mitarbeiter, die das nächste Vorzeigemodell des Unternehmens mit dem Codenamen Orion testeten, weniger Verbesserungen im Vergleich zum Sprung von GPT-3 zu GPT fest. Das deutet darauf hin, dass sich das Tempo des Fortschritts verringert. Als Reaktion darauf hat … Weiterlesen …

Chain-of-Thought ist kein Allheilmittel

Das Forschungspapier „Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse“ untersucht die Wirksamkeit von Chain-of-Thought (CoT) Prompting in großen Sprach- und multimodalen Modellen. Während CoT im Allgemeinen die Leistung des Modells bei verschiedenen Aufgaben verbessert, untersuchen die Autoren Szenarien, in denen CoT die Leistung sogar behindern kann, … Weiterlesen …

Entropix: KI-Technik verbessert logisches Denken durch Erkennen von Unsicherheit

Forscher von XJDR haben eine neue Technik namens Entropix entwickelt, die die logischen Denkfähigkeiten in Sprachmodellen verbessern soll. Sie trifft intelligentere Entscheidungen, wenn das Modell unsicher ist. Thariq Shihipar stellt sie in einem Blogpost vor. Die Methode verwendet adaptive Stichproben auf der Grundlage von zwei Metriken, Entropie und Varentropie, die die Unsicherheit in den Vorhersagen … Weiterlesen …

LLMs können nicht logisch denken

Eine neue Studie von Apple zeigt, dass große Sprachmodelle (LLMs) nicht logisch denken können, sondern auf Mustererkennung beruhen. Diese Erkenntnis, veröffentlicht von sechs KI-Forschern bei Apple, stellt das gängige Verständnis von LLMs in Frage. Die Forscher fanden heraus, dass schon kleine Änderungen, wie das Vertauschen von Namen, die Ergebnisse der Modelle um etwa 10 % … Weiterlesen …

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem … Weiterlesen …

Google arbeitet an KI mit fortgeschrittenen Denkfähigkeiten

Google arbeitet an KI-Software mit Denkfähigkeiten, die an Menschen erinnern, ähnlich OpenAIs o1-Modell. Mehrere Teams des Unternehmens machen Fortschritte bei der Entwicklung von KI-Systemen, die komplexe Probleme in Bereichen wie Mathematik und Programmierung lösen können. Das berichteten Julia Love und Rachel Metz für Bloomberg. Die Forscher setzen dabei auf eine Technik namens „Chain-of-Thought Prompting“, die … Weiterlesen …

Chain of Thought

Chain of Thought (Gedankenkette) ist ein Konzept in der künstlichen Intelligenz, das die Fähigkeit von KI-Systemen beschreibt, komplexe Probleme schrittweise zu lösen, ähnlich wie es Menschen tun. Diese Methode ermöglicht es KI-Modellen, ihre Denkprozesse in einer für Menschen nachvollziehbaren Weise darzulegen. Anstatt nur eine endgültige Antwort zu liefern, zeigt die KI dabei die einzelnen Gedankenschritte … Weiterlesen …

OpenAI o1 verblüfft mit teils enorm verbesserter Leistung

OpenAI hat eine neue Familie von KI-Modellen namens „o1“ vorgestellt. Sie war zuvor als „Project Strawberry“ bekannt und hatte zu allerlei Spekulationen und hohen Erwartungen geführt. Die beiden ersten Versionen, o1-preview und o1-mini, nutzen eine als „Chain of Thought“ bezeichnete Reasoning-Methode, um komplexe Aufgaben zu lösen. Diese Technik ermöglicht es den Modellen, vor der Antwortgenerierung … Weiterlesen …

Quiet-STaR hilft Sprachmodellen beim Denken

Forscher der Stanford University und von Notbad AI wollen Sprachmodellen beibringen, vor dem Antworten auf Prompts nachzudenken. Durch ihr „Quiet-STaR“ genanntes Modell konnten sie die Fähigkeiten der getesteten Sprachmodelle im Bereich logisches Denken verbessern.