Multimodal - ✦ Smart Content Report

Google Gemma 4 12B: Leistungsstarke KI läuft auf Laptops mit nur 16 GB Arbeitsspeicher

4. Juni 2026

Google hat Gemma 4 12B veröffentlicht, ein multimodales Open Weights KI-Modell, das auf einem normalen Laptop mit 16 GB VRAM oder Unified Memory läuft. Das Modell ist kostenlos verfügbar und lässt sich vollständig offline betreiben, ohne Daten in die Cloud zu senden. Gemma 4 12B basiert auf einer sogenannten „Unified“-Architektur: Im Gegensatz zu vielen anderen …

Gemini Omni: Bild, Ton und Video in einem einzigen Modell

19. Mai 2026

Google hat Gemini Omni vorgestellt, ein neues KI-Modell, das Text, Bilder, Audio und Video als Eingabe akzeptiert und daraus Videos erstellt. Das Unternehmen beschreibt es als nativ multimodal: Ein einziges Modell verarbeitet alle Inhaltstypen, ohne Aufgaben an separate Systeme weiterzugeben. Das erste Modell der Familie, Gemini Omni Flash, ist jetzt für Abonnenten der Google-Pläne AI …

Thinking Machines zeigt KI-Modell, das in Echtzeit zuhört und antwortet

18. Mai 2026

Das KI-Unternehmen Thinking Machines, mitgegründet von der früheren OpenAI-Technikchefin Mira Murati, hat eine Forschungsvorschau sogenannter „Interaction Models“ veröffentlicht. Diese KI-Systeme sollen in Echtzeit wahrnehmen und antworten, anstatt auf das Ende einer Eingabe zu warten. Bisherige KI-Modelle arbeiten im Wechsel: Der Nutzer schickt eine Eingabe, das Modell verarbeitet sie und antwortet. Thinking Machines sieht darin eine …

Nvidia bündelt Sprache, Bild und Ton in Nemotron 3 Nano Omni

29. April 2026

Nvidia hat Nemotron 3 Nano Omni vorgestellt, ein offenes KI-Modell, das Text, Bild und Audio in einem System vereint. Bisherige KI-Agenten nutzen für jede dieser Aufgaben separate Modelle. Das verlangsamt die Verarbeitung und erhöht die Kosten. Nvidia will dieses Problem mit dem neuen Modell lösen. Das Modell basiert auf einer hybriden Mixture-of-Experts-Architektur mit 30 Milliarden …

Anthropic veröffentlicht Claude Opus 4.7

17. April 2026

Anthropic hat Claude Opus 4.7 veröffentlicht, das bisher leistungsstärkste öffentlich verfügbare KI-Modell des Unternehmens. Laut Anthropic übertrifft das Modell seinen Vorgänger Claude Opus 4.6 in den Bereichen Softwareentwicklung, Dokumentenanalyse und Bildverarbeitung. Ein zentrales Merkmal ist die Fähigkeit zur Selbstüberprüfung. Bei internen Tests entwickelte Opus 4.7 eigenständig eine Text-zu-Sprache-Software in der Programmiersprache Rust und prüfte das …

Meta veröffentlicht proprietäres KI-Modell Muse Spark

9. April 2026

Meta hat Muse Spark veröffentlicht, ein neues proprietäres KI-Modell seiner internen Abteilung Meta Superintelligence Labs. Das Modell ist über die Meta AI App und die Website verfügbar, mit einem privaten API-Zugang für ausgewählte Nutzer. Anders als Metas frühere Llama-Modelle ist Muse Spark kein Open-Source-Modell. Muse Spark verarbeitet Text und Bilder gemeinsam. Meta nennt diese Fähigkeit …

Google Gemma 4 ist die stärkste Open-Source-KI des Unternehmens

2. April 2026

Google hat Gemma 4 vorgestellt, eine neue Familie von Open-Weight-KI-Modellen. Das Unternehmen bezeichnet sie als die bislang fähigsten Modelle dieser Reihe. Sie basieren auf derselben Forschung und Technologie wie Googles proprietäres Gemini-3-System und werden unter einer Apache-2.0-Open-Source-Lizenz veröffentlicht. Diese Lizenz erlaubt es Entwicklern, die Modelle für kommerzielle Zwecke frei zu nutzen und zu verändern. Die …

Denken nur wenn nötig: Microsofts neue KI weiß, wann sie sich die Mühe sparen kann

10. März 2026

Microsoft hat das KI-Modell Phi-4-reasoning-vision-15B veröffentlicht. Es verarbeitet sowohl Bilder als auch Text und kann komplexe Mathematik- und Wissenschaftsaufgaben lösen. Michael Nuñez berichtet für VentureBeat, dass das Modell mit 15 Milliarden Parametern deutlich größere Systeme in vielen Bereichen einholt oder übertrifft. Der Rechenaufwand und der Bedarf an Trainingsdaten sind dabei deutlich geringer. Das Modell ist …

GPT‑5.4 soll komplexe Büroarbeit erledigen und bringt neue Agenten‑Funktionen

5. März 2026

OpenAI hat das neue KI‑Modell GPT‑5.4 vorgestellt. Das System soll vor allem professionelle Aufgaben unterstützen, etwa Programmieren, Dokumente schreiben, Präsentationen erstellen oder Tabellen analysieren. Das Modell erscheint in zwei Varianten. GPT‑5.4 Thinking ist die Reasoning‑Version in ChatGPT. GPT‑5.4 Pro richtet sich an Entwickler und Unternehmen, die maximale Leistung für komplexe Aufgaben benötigen. Beide Versionen sind …

Google veröffentlicht Gemini 3.1 Pro mit deutlich verbessertem Reasoning

29. Mai 202619. Februar 2026

Google hat Gemini 3.1 Pro veröffentlicht, eine aktualisierte Version seines KI-Modells Gemini 3 Pro. Das Unternehmen beschreibt es als einen Schritt vorwärts beim Reasoning — also der Fähigkeit, komplexe Probleme zu lösen, bei denen einfache Antworten nicht ausreichen. Das Modell ist jetzt für Verbraucher über die Gemini-App und NotebookLM verfügbar, allerdings vorerst nur für Nutzer …