Neues KI-Modell Qwen3-VL soll sehen, verstehen und handeln

Das QwenTeam hat eine neue Serie quelloffener Vision-Language-Modelle namens Qwen3-VL veröffentlicht. Laut der offiziellen Ankündigung sollen die Modelle nicht nur Bilder und Videos erkennen, sondern auch Kontexte verstehen, logisch schlussfolgern und Aktionen ausführen. Das Spitzenmodell der Reihe, Qwen3-VL-235B-A22B, wird in zwei Versionen angeboten. Die Entwickler berichten, dass die „Instruct“-Version in wichtigen Tests zur visuellen Wahrnehmung …

Weiterlesen …

Qwen3-Omni ist ein Open-Source-Modell für Text, Bild, Audio und Video

Das chinesische Technologieunternehmen Alibaba hat Qwen3-Omni veröffentlicht. Es ist ein neues generatives KI-Modell, das eine Kombination aus Text, Bildern, Audio und Video verarbeiten kann. Das Modell zeichnet sich durch seine „omni-modalen“ Fähigkeiten und seine Open-Source-Lizenz aus. Damit positioniert es sich als direkter Konkurrent zu proprietären Modellen von US-Technologiekonzernen wie OpenAI und Google. Nach von Alibaba …

Weiterlesen …

Google: Fotobearbeitung per Sprachbefehl für mehr Android-Nutzer

Google stellt seine dialogbasierte Fotobearbeitung für weitere Android-Nutzer in den USA bereit. Mit dem Werkzeug können Nutzer Bilder durch Sprach- oder Texteingaben bearbeiten. Artie Beaty berichtet für ZDNet, dass die Funktion bisher nur für das Google Pixel 10 verfügbar war. Die Bearbeitung wird über die Schaltfläche „Bearbeitungshilfe“ in Google Fotos gestartet. Nutzer können dann ihre …

Weiterlesen …

Google veröffentlicht Tipps für bessere Bilderzeugung mit Gemini

Google DeepMind erklärt in einem neuen Beitrag, wie Nutzer die verbesserte Bilderzeugung in Gemini optimal nutzen können. Produktmanagerin Naina Raisinghani teilte konkrete Strategien für wirksamere Eingaben mit dem aktualisierten Modell. Das Unternehmen empfiehlt sechs wichtige Elemente in Eingaben: Motiv, Komposition, Handlung, Ort, Stil und Bearbeitungsanweisungen. Nutzer sollten bei der Motivbeschreibung spezifisch und bei Änderungswünschen direkt …

Weiterlesen …

„Nano Banana“: Google begeistert mit neuem KI-Bildgenerator

Google hat ein aktualisiertes KI-Modell namens Gemini 2.5 Flash Image veröffentlicht. Es soll Nutzern mehr Kontrolle über die Erstellung und Bearbeitung von Bildern geben. Das Modell wurde zuvor anonym auf der Bewertungsplattform LMArena unter dem Codenamen „Nano Banana“ getestet. Nun ist es in die Gemini-App integriert und steht Entwicklern über die Gemini API, Google AI …

Weiterlesen …

Neues KI-Modell von Alibaba bearbeitet Bilder mit Textbefehlen

Das Qwen-Team von Alibaba hat ein neues Open-Source-KI-Modell namens Qwen-Image Edit veröffentlicht. Es ermöglicht Nutzern, Bilder mit einfachen Textanweisungen zu bearbeiten. Das Werkzeug kann eine Vielzahl komplexer Aufgaben ausführen und konkurriert damit mit etablierter Software wie Adobe Photoshop. Das berichtet Carl Franzen für VentureBeat. Nutzer laden ein Bild hoch und geben eine Anweisung ein, zum …

Weiterlesen …

Die besten KI-Bildgeneratoren für Content-Profis im Vergleich

Vor nicht allzu langer Zeit war das Erzeugen eines Bildes mit KI eher eine technische Spielerei. Es war ein netter Partytrick mit begrenztem praktischem Nutzen. Im Jahr 2025 hat sich das geändert. Die KI-Bilderzeugung hat sich zu einem praktischen Werkzeug für Marketing-Profis entwickelt. Von einzigartigen Visuals für Social-Media-Kampagnen über Website-Assets bis hin zu konzeptionellen Produktfotos: …

Weiterlesen …

Googles neuester KI-Bildgenerator Imagen 4 jetzt verfügbar

Google hat seine Text-zu-Bild-Modelle der Imagen-4-Familie allgemein verfügbar gemacht. Laut einem Beitrag im Google Developers Blog sind die Werkzeuge ab sofort in der Gemini API und im Google AI Studio nutzbar. Die Modellfamilie besteht aus drei Varianten, die Qualität, Geschwindigkeit und Kosten ausbalancieren. Neu ist Imagen 4 Fast, das für schnelle Bildgenerierung entwickelt wurde und …

Weiterlesen …

Alibabas neues Open-Source-KI-Modell will Text in Bildern meistern

Das Qwen-Team von Alibaba hat mit Qwen-Image einen neuen KI-Bildgenerator veröffentlicht. Nach Angaben der Entwickler ist das Modell darauf spezialisiert, Bilder mit präzisem Text in englischer und chinesischer Sprache zu erzeugen. Dies ist eine bekannte Schwachstelle vieler KI-Systeme. Der Journalist Carl Franzen schreibt für VentureBeat, dass sich damit Inhalte wie Plakate, Präsentationen oder Ladenbeschriftungen mit …

Weiterlesen …

Krea AI veröffentlicht offenes Modell gegen den generischen „KI-Look“

Krea AI hat eine Open-Source-Version seines Bildmodells veröffentlicht. Sie soll Bilder mit einer unverwechselbaren Ästhetik erzeugen und den typischen Look von KI-generierten Inhalten vermeiden. In ihrem Beitrag erläuterten die Autoren Sangwu Lee und Erwann Millon die Philosophie und den Prozess hinter ihrem neuen Modell FLUX.1 Krea. Das Modell wurde in Zusammenarbeit mit Black Forest Labs …

Weiterlesen …

×