Metas Llama 4-Modelle stoßen auf gemischte Resonanz

Meta hat seine neueste Generation von Künstliche-Intelligenz-Modellen, Llama 4, mit drei Varianten und verbesserten Fähigkeiten veröffentlicht. Es umfasst zwei sofort verfügbare Angebote – Llama 4 Scout und Llama 4 Maverick – während ein drittes Modell, Llama 4 Behemoth, noch in Entwicklung ist. Laut Meta markieren die Llama 4-Modelle „den Beginn einer neuen Ära“ für ihr … Weiterlesen …

OpenAI bringt KI-Bildgenerierung auf ein neues Level

OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze. Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell … Weiterlesen …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was … Weiterlesen …

Baidu stellt neue KI-Modelle ERNIE 4.5 und X1 zu niedrigeren Kosten vor

Der chinesische Internetkonzern Baidu hat zwei neue KI-Modelle veröffentlicht: ERNIE 4.5 für multimodale Sprachverarbeitung und ERNIE X1 für komplexes Reasoning. Laut Carl Franzen bei VentureBeat übertreffen die Modelle Konkurrenten wie DeepSeek und OpenAI bei verschiedenen Benchmark-Tests. Die Preisgestaltung ist besonders bemerkenswert: ERNIE 4.5 kostet 99% weniger als OpenAIs GPT-4.5. Zu den Einschränkungen zählen ein kleines … Weiterlesen …

Cohere stellt Aya Vision vor, ein mehrsprachiges Bildverarbeitungsmodell

Die Forschungsabteilung von Cohere hat Aya Vision eingeführt, ein Bildverarbeitungsmodell mit offenen Gewichten, das 23 Sprachen unterstützt. Laut VentureBeat-Bericht von Carl Franzen gibt es das Modell in Versionen mit 8 und 32 Milliarden Parametern. Es kann Bilder analysieren, Text generieren und visuelle Inhalte übersetzen. Aya Vision übertrifft größere Modelle wie Llama 90B bei geringerem Ressourcenbedarf. … Weiterlesen …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, … Weiterlesen …

Alibaba stellt leistungsfähige neue KI-Modelle vor

Alibabas Qwen-Team hat zwei bedeutende KI-Modelle – Qwen2.5-VL und Qwen2.5-Max – vorgestellt, die fortschrittliche Fähigkeiten in verschiedenen Aufgabenbereichen demonstrieren. Laut Unternehmensangaben können diese Modelle Text- und Bildanalysen durchführen, Computer und mobile Geräte steuern und mit etablierten KI-Systemen von OpenAI, Anthropic und Google in mehreren Bewertungskategorien konkurrieren. Die Qwen2.5-VL-Modellfamilie umfasst drei Versionen, wobei die 72B-Hauptversion eine … Weiterlesen …

Hugging Face stellt kompakte KI-Modelle für Bild- und Textanalyse vor

Hugging Face präsentiert zwei neue KI-Modelle für die Verarbeitung von Bildern, Videos und Texten auf ressourcenbeschränkten Geräten. Die als SmolVLM-256M und SmolVLM-500M bezeichneten Systeme benötigen weniger als 1GB Arbeitsspeicher. Wie der TechCrunch-Autor Kyle Wiggers berichtet, können die Modelle Bilder beschreiben, Videoclips analysieren und PDF-Dokumente auswerten. Die Entwicklung basiert auf den firmeneigenen Datensätzen „The Cauldron“ und … Weiterlesen …

Anthropic gibt schnelleres KI-Modell Claude 3.5 Haiku für alle frei

Anthropic hat sein neues KI-Modell Claude 3.5 Haiku für alle Nutzer freigegeben. Wie VentureBeat-Reporter Carl Franzen berichtet, war das Modell zuvor nur Entwicklern über API zugänglich. Haiku verfügt über ein Kontextfenster von 200.000 Token und übertrifft damit OpenAIs GPT-4. Das Modell erreicht laut der Benchmark-Organisation Artificial Analysis eine Reaktionszeit von 0,80 Sekunden für das erste … Weiterlesen …

OpenAI erweitert ChatGPT um Echtzeit-Video- und Bildschirmfreigabe-Funktionen

OpenAI hat ChatGPT um Echtzeit-Videoanalyse und Bildschirmfreigabe-Funktionen erweitert. Die neuen Funktionen, die während eines Livestreams vorgestellt wurden, ermöglichen es ChatGPT Plus-, Team- und Pro-Abonnenten, über ihre Smartphone-Kameras mit der KI zu interagieren und ihre Bildschirminhalte für Echtzeitanalysen und praktische Unterstützung zu teilen. Die Videofunktion ermöglicht es Nutzern beispielsweise, ihre Telefone auf Objekte zu richten und … Weiterlesen …