Multimodal | ✦ Smart Content Report

Qwen3-Omni ist ein Open-Source-Modell für Text, Bild, Audio und Video

23. September 2025

Das chinesische Technologieunternehmen Alibaba hat Qwen3-Omni veröffentlicht. Es ist ein neues generatives KI-Modell, das eine Kombination aus Text, Bildern, Audio und Video verarbeiten kann. Das Modell zeichnet sich durch seine „omni-modalen“ Fähigkeiten und seine Open-Source-Lizenz aus. Damit positioniert es sich als direkter Konkurrent zu proprietären Modellen von US-Technologiekonzernen wie OpenAI und Google. Nach von Alibaba …

Metas Llama 4-Modelle stoßen auf gemischte Resonanz

8. April 2025

Meta hat seine neueste Generation von Künstliche-Intelligenz-Modellen, Llama 4, mit drei Varianten und verbesserten Fähigkeiten veröffentlicht. Es umfasst zwei sofort verfügbare Angebote – Llama 4 Scout und Llama 4 Maverick – während ein drittes Modell, Llama 4 Behemoth, noch in Entwicklung ist. Laut Meta markieren die Llama 4-Modelle „den Beginn einer neuen Ära“ für ihr …

OpenAI bringt KI-Bildgenerierung auf ein neues Level

25. März 2025

OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze. Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

25. März 2025

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was …

Baidu stellt neue KI-Modelle ERNIE 4.5 und X1 zu niedrigeren Kosten vor

19. März 2025

Der chinesische Internetkonzern Baidu hat zwei neue KI-Modelle veröffentlicht: ERNIE 4.5 für multimodale Sprachverarbeitung und ERNIE X1 für komplexes Reasoning. Laut Carl Franzen bei VentureBeat übertreffen die Modelle Konkurrenten wie DeepSeek und OpenAI bei verschiedenen Benchmark-Tests. Die Preisgestaltung ist besonders bemerkenswert: ERNIE 4.5 kostet 99% weniger als OpenAIs GPT-4.5. Zu den Einschränkungen zählen ein kleines …

Cohere stellt Aya Vision vor, ein mehrsprachiges Bildverarbeitungsmodell

5. März 2025

Die Forschungsabteilung von Cohere hat Aya Vision eingeführt, ein Bildverarbeitungsmodell mit offenen Gewichten, das 23 Sprachen unterstützt. Laut VentureBeat-Bericht von Carl Franzen gibt es das Modell in Versionen mit 8 und 32 Milliarden Parametern. Es kann Bilder analysieren, Text generieren und visuelle Inhalte übersetzen. Aya Vision übertrifft größere Modelle wie Llama 90B bei geringerem Ressourcenbedarf. …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

28. Februar 2025

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, …

Alibaba stellt leistungsfähige neue KI-Modelle vor

6. Februar 2025

Alibabas Qwen-Team hat zwei bedeutende KI-Modelle – Qwen2.5-VL und Qwen2.5-Max – vorgestellt, die fortschrittliche Fähigkeiten in verschiedenen Aufgabenbereichen demonstrieren. Laut Unternehmensangaben können diese Modelle Text- und Bildanalysen durchführen, Computer und mobile Geräte steuern und mit etablierten KI-Systemen von OpenAI, Anthropic und Google in mehreren Bewertungskategorien konkurrieren. Die Qwen2.5-VL-Modellfamilie umfasst drei Versionen, wobei die 72B-Hauptversion eine …

Hugging Face stellt kompakte KI-Modelle für Bild- und Textanalyse vor

5. Februar 202523. Januar 2025

Hugging Face präsentiert zwei neue KI-Modelle für die Verarbeitung von Bildern, Videos und Texten auf ressourcenbeschränkten Geräten. Die als SmolVLM-256M und SmolVLM-500M bezeichneten Systeme benötigen weniger als 1GB Arbeitsspeicher. Wie der TechCrunch-Autor Kyle Wiggers berichtet, können die Modelle Bilder beschreiben, Videoclips analysieren und PDF-Dokumente auswerten. Die Entwicklung basiert auf den firmeneigenen Datensätzen „The Cauldron“ und …

Anthropic gibt schnelleres KI-Modell Claude 3.5 Haiku für alle frei

5. Februar 202513. Dezember 2024

Anthropic hat sein neues KI-Modell Claude 3.5 Haiku für alle Nutzer freigegeben. Wie VentureBeat-Reporter Carl Franzen berichtet, war das Modell zuvor nur Entwicklern über API zugänglich. Haiku verfügt über ein Kontextfenster von 200.000 Token und übertrifft damit OpenAIs GPT-4. Das Modell erreicht laut der Benchmark-Organisation Artificial Analysis eine Reaktionszeit von 0,80 Sekunden für das erste …