OpenAI bringt KI-Bildgenerierung auf ein neues Level

OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze. Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell … Weiterlesen …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was … Weiterlesen …

Baidu stellt neue KI-Modelle ERNIE 4.5 und X1 zu niedrigeren Kosten vor

Der chinesische Internetkonzern Baidu hat zwei neue KI-Modelle veröffentlicht: ERNIE 4.5 für multimodale Sprachverarbeitung und ERNIE X1 für komplexes Reasoning. Laut Carl Franzen bei VentureBeat übertreffen die Modelle Konkurrenten wie DeepSeek und OpenAI bei verschiedenen Benchmark-Tests. Die Preisgestaltung ist besonders bemerkenswert: ERNIE 4.5 kostet 99% weniger als OpenAIs GPT-4.5. Zu den Einschränkungen zählen ein kleines … Weiterlesen …

Cohere stellt Aya Vision vor, ein mehrsprachiges Bildverarbeitungsmodell

Die Forschungsabteilung von Cohere hat Aya Vision eingeführt, ein Bildverarbeitungsmodell mit offenen Gewichten, das 23 Sprachen unterstützt. Laut VentureBeat-Bericht von Carl Franzen gibt es das Modell in Versionen mit 8 und 32 Milliarden Parametern. Es kann Bilder analysieren, Text generieren und visuelle Inhalte übersetzen. Aya Vision übertrifft größere Modelle wie Llama 90B bei geringerem Ressourcenbedarf. … Weiterlesen …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, … Weiterlesen …

Alibaba stellt leistungsfähige neue KI-Modelle vor

Alibabas Qwen-Team hat zwei bedeutende KI-Modelle – Qwen2.5-VL und Qwen2.5-Max – vorgestellt, die fortschrittliche Fähigkeiten in verschiedenen Aufgabenbereichen demonstrieren. Laut Unternehmensangaben können diese Modelle Text- und Bildanalysen durchführen, Computer und mobile Geräte steuern und mit etablierten KI-Systemen von OpenAI, Anthropic und Google in mehreren Bewertungskategorien konkurrieren. Die Qwen2.5-VL-Modellfamilie umfasst drei Versionen, wobei die 72B-Hauptversion eine … Weiterlesen …

Hugging Face stellt kompakte KI-Modelle für Bild- und Textanalyse vor

Hugging Face präsentiert zwei neue KI-Modelle für die Verarbeitung von Bildern, Videos und Texten auf ressourcenbeschränkten Geräten. Die als SmolVLM-256M und SmolVLM-500M bezeichneten Systeme benötigen weniger als 1GB Arbeitsspeicher. Wie der TechCrunch-Autor Kyle Wiggers berichtet, können die Modelle Bilder beschreiben, Videoclips analysieren und PDF-Dokumente auswerten. Die Entwicklung basiert auf den firmeneigenen Datensätzen „The Cauldron“ und … Weiterlesen …

Anthropic gibt schnelleres KI-Modell Claude 3.5 Haiku für alle frei

Anthropic hat sein neues KI-Modell Claude 3.5 Haiku für alle Nutzer freigegeben. Wie VentureBeat-Reporter Carl Franzen berichtet, war das Modell zuvor nur Entwicklern über API zugänglich. Haiku verfügt über ein Kontextfenster von 200.000 Token und übertrifft damit OpenAIs GPT-4. Das Modell erreicht laut der Benchmark-Organisation Artificial Analysis eine Reaktionszeit von 0,80 Sekunden für das erste … Weiterlesen …

OpenAI erweitert ChatGPT um Echtzeit-Video- und Bildschirmfreigabe-Funktionen

OpenAI hat ChatGPT um Echtzeit-Videoanalyse und Bildschirmfreigabe-Funktionen erweitert. Die neuen Funktionen, die während eines Livestreams vorgestellt wurden, ermöglichen es ChatGPT Plus-, Team- und Pro-Abonnenten, über ihre Smartphone-Kameras mit der KI zu interagieren und ihre Bildschirminhalte für Echtzeitanalysen und praktische Unterstützung zu teilen. Die Videofunktion ermöglicht es Nutzern beispielsweise, ihre Telefone auf Objekte zu richten und … Weiterlesen …

Tests zeigen beeindruckende Leistung von Googles Gemini 2.0 Flash

Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests … Weiterlesen …