Gemini Omni: Bild, Ton und Video in einem einzigen Modell

Google hat Gemini Omni vorgestellt, ein neues KI-Modell, das Text, Bilder, Audio und Video als Eingabe akzeptiert und daraus Videos erstellt. Das Unternehmen beschreibt es als nativ multimodal: Ein einziges Modell verarbeitet alle Inhaltstypen, ohne Aufgaben an separate Systeme weiterzugeben. Das erste Modell der Familie, Gemini Omni Flash, ist jetzt für Abonnenten der Google-Pläne AI …

Weiterlesen …

Thinking Machines zeigt KI-Modell, das in Echtzeit zuhört und antwortet

Das KI-Unternehmen Thinking Machines, mitgegründet von der früheren OpenAI-Technikchefin Mira Murati, hat eine Forschungsvorschau sogenannter „Interaction Models“ veröffentlicht. Diese KI-Systeme sollen in Echtzeit wahrnehmen und antworten, anstatt auf das Ende einer Eingabe zu warten. Bisherige KI-Modelle arbeiten im Wechsel: Der Nutzer schickt eine Eingabe, das Modell verarbeitet sie und antwortet. Thinking Machines sieht darin eine …

Weiterlesen …

Nvidia bündelt Sprache, Bild und Ton in Nemotron 3 Nano Omni

Nvidia hat Nemotron 3 Nano Omni vorgestellt, ein offenes KI-Modell, das Text, Bild und Audio in einem System vereint. Bisherige KI-Agenten nutzen für jede dieser Aufgaben separate Modelle. Das verlangsamt die Verarbeitung und erhöht die Kosten. Nvidia will dieses Problem mit dem neuen Modell lösen. Das Modell basiert auf einer hybriden Mixture-of-Experts-Architektur mit 30 Milliarden …

Weiterlesen …

Anthropic veröffentlicht Claude Opus 4.7

Anthropic hat Claude Opus 4.7 veröffentlicht, das bisher leistungsstärkste öffentlich verfügbare KI-Modell des Unternehmens. Laut Anthropic übertrifft das Modell seinen Vorgänger Claude Opus 4.6 in den Bereichen Softwareentwicklung, Dokumentenanalyse und Bildverarbeitung. Ein zentrales Merkmal ist die Fähigkeit zur Selbstüberprüfung. Bei internen Tests entwickelte Opus 4.7 eigenständig eine Text-zu-Sprache-Software in der Programmiersprache Rust und prüfte das …

Weiterlesen …

Meta veröffentlicht proprietäres KI-Modell Muse Spark

Meta hat Muse Spark veröffentlicht, ein neues proprietäres KI-Modell seiner internen Abteilung Meta Superintelligence Labs. Das Modell ist über die Meta AI App und die Website verfügbar, mit einem privaten API-Zugang für ausgewählte Nutzer. Anders als Metas frühere Llama-Modelle ist Muse Spark kein Open-Source-Modell. Muse Spark verarbeitet Text und Bilder gemeinsam. Meta nennt diese Fähigkeit …

Weiterlesen …

Google Gemma 4 ist die stärkste Open-Source-KI des Unternehmens

Google hat Gemma 4 vorgestellt, eine neue Familie von Open-Weight-KI-Modellen. Das Unternehmen bezeichnet sie als die bislang fähigsten Modelle dieser Reihe. Sie basieren auf derselben Forschung und Technologie wie Googles proprietäres Gemini-3-System und werden unter einer Apache-2.0-Open-Source-Lizenz veröffentlicht. Diese Lizenz erlaubt es Entwicklern, die Modelle für kommerzielle Zwecke frei zu nutzen und zu verändern. Die …

Weiterlesen …

Denken nur wenn nötig: Microsofts neue KI weiß, wann sie sich die Mühe sparen kann

Microsoft hat das KI-Modell Phi-4-reasoning-vision-15B veröffentlicht. Es verarbeitet sowohl Bilder als auch Text und kann komplexe Mathematik- und Wissenschaftsaufgaben lösen. Michael Nuñez berichtet für VentureBeat, dass das Modell mit 15 Milliarden Parametern deutlich größere Systeme in vielen Bereichen einholt oder übertrifft. Der Rechenaufwand und der Bedarf an Trainingsdaten sind dabei deutlich geringer. Das Modell ist …

Weiterlesen …

GPT‑5.4 soll komplexe Büroarbeit erledigen und bringt neue Agenten‑Funktionen

OpenAI hat das neue KI‑Modell GPT‑5.4 vorgestellt. Das System soll vor allem professionelle Aufgaben unterstützen, etwa Programmieren, Dokumente schreiben, Präsentationen erstellen oder Tabellen analysieren. Das Modell erscheint in zwei Varianten. GPT‑5.4 Thinking ist die Reasoning‑Version in ChatGPT. GPT‑5.4 Pro richtet sich an Entwickler und Unternehmen, die maximale Leistung für komplexe Aufgaben benötigen. Beide Versionen sind …

Weiterlesen …

Google veröffentlicht Gemini 3.1 Pro mit deutlich verbessertem Reasoning

Google hat Gemini 3.1 Pro veröffentlicht, eine aktualisierte Version seines KI-Modells Gemini 3 Pro. Das Unternehmen beschreibt es als einen Schritt vorwärts beim Reasoning — also der Fähigkeit, komplexe Probleme zu lösen, bei denen einfache Antworten nicht ausreichen. Das Modell ist jetzt für Verbraucher über die Gemini-App und NotebookLM verfügbar, allerdings vorerst nur für Nutzer …

Weiterlesen …

Alibaba veröffentlicht Qwen3.5, ein multimodales KI-Modell mit 397 Milliarden Parametern

Alibaba hat Qwen3.5 vorgestellt, ein neues KI-Modell, das als multimodaler Agent Text, Bilder und Videos verarbeiten kann. Das QwenTeam kündigt diese Entwicklung auf der Webseite des Unternehmens an. Das Modell enthält 397 Milliarden Parameter. Pro Aufgabe aktiviert es jedoch nur 17 Milliarden davon. Das Team betont, dieser Ansatz optimiere Geschwindigkeit und Kosten. Die Architektur kombiniert …

Weiterlesen …

×