OpenAIs neue KI-Modelle halluzinieren häufiger

Die neuen Reasoning-KI-Modelle o3 und o4-mini von OpenAI weisen höhere Halluzinationsraten auf als ihre Vorgänger. Interne Tests zeigen, dass o3 bei 33% der Fragen im PersonQA-Benchmark falsche Informationen erzeugt – etwa doppelt so häufig wie frühere Modelle. Das o4-mini schnitt mit 48% noch schlechter ab, wie TechCrunch berichtet. OpenAI gibt in seinem technischen Bericht zu, …

Weiterlesen …

Google stellt Gemini 2.5 Flash mit einstellbaren „Thinking“-Fähigkeiten vor

Google hat Gemini 2.5 Flash als Vorschauversion veröffentlicht und bietet Entwicklern beispiellose Kontrolle über die Reasoning-Fähigkeiten des KI-Modells. Diese neue Version ermöglicht es Nutzern, „Thinking“ (das Denken des Modells) ein- oder auszuschalten und spezifische „Thinking-Budgets“ festzulegen, um Qualität, Kosten und Antwortzeit zu optimieren. Die Preisstruktur zeigt die Kostenauswirkungen des Reasonings deutlich: Die Eingabe kostet 0,15 …

Weiterlesen …

OpenAI o3 und o4-mini bringen neue Fähigkeiten zu Reasoning-KI

OpenAI hat zwei neue KI-Modelle, o3 und o4-mini, veröffentlicht, die erweiterte Reasoning-Fähigkeiten bieten und neue Funktionen wie das „Denken mit Bildern“ einführen. Diese Modelle sind die neueste Entwicklung in der o-Serie des Unternehmens und erscheinen nur wenige Tage nach der Veröffentlichung von GPT-4.1. Die markanteste Eigenschaft der Modelle ist ihre Fähigkeit, Bilder nicht nur zu …

Weiterlesen …

Google stellt effizienten KI-Assistenten Gemini 2.5 Flash vor

Google hat mit Gemini 2.5 Flash ein neues KI-Modell vorgestellt, das auf Effizienz ausgerichtet ist. Wie Kyle Wiggers von TechCrunch berichtet, wird das Modell bald auf Googles KI-Entwicklungsplattform Vertex AI verfügbar sein. Gemini 2.5 Flash bietet „dynamisches und kontrollierbares“ Computing, sodass Entwickler die Verarbeitungszeit je nach Komplexität der Anfragen anpassen können. Als Reasoning-Modell ähnlich wie …

Weiterlesen …

KI-Startup Deep Cogito zeigt seine ersten Open-Source-Sprachmodelle

Das KI-Startup Deep Cogito aus San Francisco hat seine ersten Sprachmodelle namens Cogito v1 veröffentlicht. Diese Open-Source-Modelle basieren auf Metas Llama 3.2 und verfügen über hybride Fähigkeiten zur Selbstreflexion, wie Carl Franzen von VentureBeat berichtet. Die Modelle sind in fünf verschiedenen Größen von 3 bis 70 Milliarden Parametern verfügbar und können über Hugging Face, Ollama …

Weiterlesen …

Nvidias neues Sprachmodell hat zuschaltbares Reasoning

Nvidia hat ein neues Sprachmodell namens Llama-3.1-Nemotron-Ultra-253B veröffentlicht, das trotz seiner geringeren Größe den Konkurrenten DeepSeek R1 in mehreren Benchmarks übertrifft. Wie VentureBeat-Autor Carl Franzen berichtet, wurde das vollständig quelloffene Modell auf Hugging Face bereitgestellt. Eine Besonderheit ist der Wechsel zwischen „Reasoning On“ und „Reasoning Off“-Modi, wodurch die Leistung bei komplexen Aufgaben deutlich steigt, beim …

Weiterlesen …

OpenAI kündigt erstes Open-Source-Sprachmodell seit Jahren an

OpenAI plant in den kommenden Monaten sein erstes „offenes“ Sprachmodell seit GPT-2 zu veröffentlichen. Dies geht aus einem Feedback-Formular hervor, das das Unternehmen auf seiner Website veröffentlicht hat. Laut eines Berichts von Kyle Wiggers bittet OpenAI Entwickler, Forscher und Community-Mitglieder um Rückmeldungen zu dem neuen Modell. Das Unternehmen wird Entwickler-Events organisieren, beginnend in San Francisco …

Weiterlesen …

Googles Gemini 2.5 Pro führt in Benchmarks und du kannst es kostenlos ausprobieren

Google hat überraschend sein neuestes KI-Modell, Gemini 2.5 Pro, für alle Nutzer kostenlos zugänglich gemacht, nicht nur für Premium-Abonnenten. Das Modell hat schnell Anerkennung für seine außergewöhnlichen Reasoning-Fähigkeiten gewonnen und führt derzeit die Branchenbenchmarks an. Gemini 2.5 Pro zeichnet sich durch sein enormes Kontextfenster von 1 Million Token aus (mit Plänen zur Erweiterung auf 2 …

Weiterlesen …

Neuer Benchmark zeigt große Lücke zwischen menschlicher und KI-Denkfähigkeit

Die Arc Prize Foundation hat mit ARC-AGI-2 einen neuen Maßstab zur Messung künstlicher allgemeiner Intelligenz (artificial general intelligence, AGI) veröffentlicht, der sich für selbst die fortschrittlichsten KI-Systeme als äußerst schwierig erwiesen hat. Dieser Test der zweiten Generation bewertet gezielt die Denkfähigkeiten zur Testzeit: KI muss sich an neue, nie zuvor gesehene Aufgaben anpassen, anstatt sich …

Weiterlesen …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was …

Weiterlesen …