Wie Gemini 3 jetzt die Welt sieht und komplexe Probleme besser löst als je zuvor

Googles neuestes und leistungsfähigstes KI-Modell, Gemini 3 Pro, verfügt über erweiterte Fähigkeiten bei Aufgaben, die visuelles Verständnis erfordern. In einem Beitrag im Google Blog beschreibt das Unternehmen, wie das Modell visuelle Informationen aus verschiedenen Quellen verarbeitet und interpretiert. Laut Google zeigt das Modell in mehreren Kernbereichen eine hohe Leistungsfähigkeit. Dazu gehören: Google nennt mögliche Anwendungsfälle …

Weiterlesen …

Mistral AI veröffentlicht 10 Open-Source-Modelle für lokale KI und Unternehmenseinsatz

Mistral AI hat Mistral 3 veröffentlicht, eine Sammlung von 10 Open-Source-Modellen für künstliche Intelligenz. Die Modelle laufen auf Geräten vom Smartphone bis zu Cloud-Systemen für Unternehmen. Das französische Startup hat alle Modelle unter der Apache 2.0-Lizenz veröffentlicht, die kommerzielle Nutzung ohne Einschränkungen erlaubt. Die Veröffentlichung umfasst Mistral Large 3, das Flaggschiff-Modell des Unternehmens, und die …

Weiterlesen …

Google Gemini 3: KI-Agenten und generative Interfaces

Google hat die Einführung von Gemini 3 angekündigt, einer neuen Familie von KI-Modellen, die das Unternehmen als seine bisher „intelligentesten“ und leistungsfähigsten bezeichnet. Das Flaggschiff-Modell, Gemini 3 Pro, wurde sofort in mehreren wichtigen Google-Produkten verfügbar gemacht, darunter die Gemini-App und die Google Suche. Die Veröffentlichung signalisiert dabei den Vorstoß des Unternehmens, über textbasierte Konversationen hinauszugehen …

Weiterlesen …

Qwen3-Omni ist ein Open-Source-Modell für Text, Bild, Audio und Video

Das chinesische Technologieunternehmen Alibaba hat Qwen3-Omni veröffentlicht. Es ist ein neues generatives KI-Modell, das eine Kombination aus Text, Bildern, Audio und Video verarbeiten kann. Das Modell zeichnet sich durch seine „omni-modalen“ Fähigkeiten und seine Open-Source-Lizenz aus. Damit positioniert es sich als direkter Konkurrent zu proprietären Modellen von US-Technologiekonzernen wie OpenAI und Google. Nach von Alibaba …

Weiterlesen …

Metas Llama 4-Modelle stoßen auf gemischte Resonanz

Meta hat seine neueste Generation von Künstliche-Intelligenz-Modellen, Llama 4, mit drei Varianten und verbesserten Fähigkeiten veröffentlicht. Es umfasst zwei sofort verfügbare Angebote – Llama 4 Scout und Llama 4 Maverick – während ein drittes Modell, Llama 4 Behemoth, noch in Entwicklung ist. Laut Meta markieren die Llama 4-Modelle „den Beginn einer neuen Ära“ für ihr …

Weiterlesen …

OpenAI bringt KI-Bildgenerierung auf ein neues Level

OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze. Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell …

Weiterlesen …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was …

Weiterlesen …

Baidu stellt neue KI-Modelle ERNIE 4.5 und X1 zu niedrigeren Kosten vor

Der chinesische Internetkonzern Baidu hat zwei neue KI-Modelle veröffentlicht: ERNIE 4.5 für multimodale Sprachverarbeitung und ERNIE X1 für komplexes Reasoning. Laut Carl Franzen bei VentureBeat übertreffen die Modelle Konkurrenten wie DeepSeek und OpenAI bei verschiedenen Benchmark-Tests. Die Preisgestaltung ist besonders bemerkenswert: ERNIE 4.5 kostet 99% weniger als OpenAIs GPT-4.5. Zu den Einschränkungen zählen ein kleines …

Weiterlesen …

Cohere stellt Aya Vision vor, ein mehrsprachiges Bildverarbeitungsmodell

Die Forschungsabteilung von Cohere hat Aya Vision eingeführt, ein Bildverarbeitungsmodell mit offenen Gewichten, das 23 Sprachen unterstützt. Laut VentureBeat-Bericht von Carl Franzen gibt es das Modell in Versionen mit 8 und 32 Milliarden Parametern. Es kann Bilder analysieren, Text generieren und visuelle Inhalte übersetzen. Aya Vision übertrifft größere Modelle wie Llama 90B bei geringerem Ressourcenbedarf. …

Weiterlesen …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, …

Weiterlesen …