KI-Entwicklung sucht neue Wege neben der Skalierung

Die Künstliche-Intelligenz-Branche steht vor der Herausforderung, dass größere Sprachmodelle möglicherweise an ihre Grenzen stoßen, berichtet Gary Grossman von Edelman. Bei der Entwicklung neuer Modelle wie GPT-5 zeigen sich zunehmend abnehmende Leistungsgewinne. Führende Experten wie OpenAI-Chef Sam Altman und Ex-Google-CEO Eric Schmidt sehen jedoch keine unüberwindbaren Grenzen. Alternative Ansätze zur Verbesserung der KI-Leistung gewinnen an Bedeutung, …

Weiterlesen …

Alibaba veröffentlicht neues KI-Reasoning-Modell als Konkurrenz zu OpenAI

Alibaba hat Qwen with Questions (QwQ) vorgestellt, ein neues KI-Reasoning-Modell, das mit OpenAIs o1-System konkurrieren soll. Das Modell verfügt über 32 Milliarden Parameter und kann Kontexte von bis zu 32.000 Token verarbeiten. Laut Alibabas Tests übertrifft QwQ OpenAIs o1-preview bei den mathematischen und wissenschaftlichen Reasoning-Benchmarks AIME und MATH. Das Unternehmen gibt an, dass QwQ bessere …

Weiterlesen …

LLaVA-o1 verbessert Bildverarbeitung durch strukturiertes Denken

Chinesische Forscher haben ein neuartiges KI-System namens LLaVA-o1 entwickelt. Ben Dickson berichtet für VentureBeat über dieses offene Sprachmodell für visuelle Verarbeitung. Das System nutzt einen vierstufigen Denkprozess: Zusammenfassung, Bildbeschreibung, Analyse und Schlussfolgerung. LLaVA-o1 basiert auf Llama-3.2-11B-Vision-Instruct und wurde mit 100.000 Bild-Text-Paaren trainiert. Eine besondere Innovation ist die „Stage-Level-Beam-Search“-Technik zur Verbesserung der Genauigkeit. In Tests übertraf …

Weiterlesen …

Chinesisches KI-Unternehmen DeepSeek zeigt Reasoning-Modell als Konkurrenz zu OpenAI o1

DeepSeek, ein chinesisches KI-Forschungsunternehmen unterstützt vom Hedgefonds High-Flyer Capital Management, hat DeepSeek-R1-Lite-Preview vorgestellt, ein neues KI-Modell, das mit OpenAIs o1 konkurrieren soll. Das Modell ist auf Reasoning-Fähigkeiten spezialisiert und kann sich mehr Zeit für die Überlegung von Fragen nehmen, bevor es Antworten gibt. Laut DeepSeek erreicht ihr Modell vergleichbare Leistungen wie OpenAIs o1 bei etablierten …

Weiterlesen …

KI scheitert an anspruchsvollem Mathe-Benchmark

Epoch AI hat mit FrontierMath einen neuen Benchmark entwickelt, der die Grenzen der mathematischen Fähigkeiten von KI-Systemen aufzeigt. Der Test umfasst Hunderte von anspruchsvollen Mathe-Aufgaben, die tiefgreifendes Verständnis und Kreativität erfordern. Laut Epoch AI lösen selbst fortschrittliche KI-Modelle wie GPT-4o und Gemini 1.5 Pro weniger als 2 % dieser Aufgaben. FrontierMath wurde in Zusammenarbeit mit …

Weiterlesen …

OpenAI und andere suchen neue Strategien für schnellere KI-Fortschritte

OpenAI entwickelt Berichten zufolge neue Strategien, um mit einer Verlangsamung der KI-Fortschritte umzugehen. Laut The Information stellten OpenAI-Mitarbeiter, die das nächste Vorzeigemodell des Unternehmens mit dem Codenamen Orion testeten, weniger Verbesserungen im Vergleich zum Sprung von GPT-3 zu GPT fest. Das deutet darauf hin, dass sich das Tempo des Fortschritts verringert. Als Reaktion darauf hat …

Weiterlesen …

Chain-of-Thought ist kein Allheilmittel

Das Forschungspapier „Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse“ untersucht die Wirksamkeit von Chain-of-Thought (CoT) Prompting in großen Sprach- und multimodalen Modellen. Während CoT im Allgemeinen die Leistung des Modells bei verschiedenen Aufgaben verbessert, untersuchen die Autoren Szenarien, in denen CoT die Leistung sogar behindern kann, …

Weiterlesen …

Entropix: KI-Technik verbessert logisches Denken durch Erkennen von Unsicherheit

Forscher von XJDR haben eine neue Technik namens Entropix entwickelt, die die logischen Denkfähigkeiten in Sprachmodellen verbessern soll. Sie trifft intelligentere Entscheidungen, wenn das Modell unsicher ist. Thariq Shihipar stellt sie in einem Blogpost vor. Die Methode verwendet adaptive Stichproben auf der Grundlage von zwei Metriken, Entropie und Varentropie, die die Unsicherheit in den Vorhersagen …

Weiterlesen …

LLMs können nicht logisch denken

Eine neue Studie von Apple zeigt, dass große Sprachmodelle (LLMs) nicht logisch denken können, sondern auf Mustererkennung beruhen. Diese Erkenntnis, veröffentlicht von sechs KI-Forschern bei Apple, stellt das gängige Verständnis von LLMs in Frage. Die Forscher fanden heraus, dass schon kleine Änderungen, wie das Vertauschen von Namen, die Ergebnisse der Modelle um etwa 10 % …

Weiterlesen …

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem …

Weiterlesen …