Runway will über Videos hinaus: Der nächste Schritt ist KI, die die Welt versteht

Das KI-Videounternehmen Runway, dessen Werkzeuge bereits in Hollywoodproduktionen zum Einsatz kamen, verfolgt ein neues Ziel. Das Unternehmen will sogenannte Weltmodelle entwickeln, also KI-Systeme, die simulieren, wie sich Umgebungen verhalten. Damit tritt Runway in direkten Wettbewerb mit Google und anderen finanzstarken Konkurrenten. Rebecca Bellan berichtet darüber für TechCrunch. Der Ansatz unterscheidet sich grundlegend von dem der …

Weiterlesen …

Alibabas Qwen3.7-Max bringt autonome KI-Agenten in Unternehmensumgebungen

Alibaba hat Qwen3.7-Max veröffentlicht, ein proprietäres KI-Modell für autonome, lang andauernde Aufgaben. Das Modell ist ausschließlich über die kostenpflichtige API von Alibaba Cloud zugänglich und nicht als Open Source verfügbar. Das ist ein klarer Bruch mit dem bisherigen Kurs des Unternehmens. Das Qwen Team, Alibabas KI-Forschungsgruppe, berichtet, dass das Modell eine 35-stündige Ingenieursaufgabe vollständig selbstständig …

Weiterlesen …

Spotify startet KI-Tools für Podcasts und Hörbücher

Spotify hat zwei neue KI-gestützte Tools für die Audioerstellung angekündigt: eine Desktop-App zum Erstellen persönlicher Podcasts und ein Hörbuch-Tool in Zusammenarbeit mit dem Sprachmodell-Unternehmen ElevenLabs. Die neue Desktop-App trägt den Namen Studio by Spotify Labs. Sie erstellt Podcasts auf Basis persönlicher Daten wie E-Mails, Kalendereinträgen und Reisebuchungen. Ein integrierter Agent durchsucht das Web und greift …

Weiterlesen …

Google Pics: Bilder erstellen und bearbeiten mit KI

Google hat ein neues Tool zur Bilderstellung und -bearbeitung namens Google Pics veröffentlicht. Die App basiert auf Googles KI-Modell Nano Banana und verbindet generative KI mit präzisen Bearbeitungsfunktionen. Nutzer können damit Bilder neu erstellen oder vorhandene Fotos bearbeiten. Die wichtigsten Funktionen im Überblick: Google erklärt, das Tool gebe Nutzern präzise kreative Kontrolle. Kleine Änderungen sollen …

Weiterlesen …

Google aktualisiert Flow und Flow Music mit neuem KI-Modell und mobilen Apps

Google hat eine Reihe von Neuerungen für seine KI-gestützten Kreativplattformen Google Flow und Google Flow Music angekündigt. Die Änderungen wurden auf der Google I/O, der jährlichen Entwicklerkonferenz des Unternehmens, vorgestellt. Sie umfassen ein neues KI-Modell, einen agentischen Assistenten, benutzerdefinierte Werkzeuge und mobile Anwendungen. Google Flow ist ein KI-Kreativstudio, mit dem Nutzer mithilfe natürlicher Sprache Videos …

Weiterlesen …

Canva bringt Design-Funktionen zu Google Gemini

Canva hat eine neue Integration mit Google Gemini veröffentlicht. Nutzerinnen und Nutzer können damit Designs direkt im Chat-Interface des KI-Assistenten erstellen und bearbeiten. Canva teilt mit, dass die Verbindung über einen sogenannten MCP-Server läuft. Die Integration ermöglicht es, neue Designs zu generieren, vorhandene Inhalte zu durchsuchen, Texte und Bilder zu bearbeiten sowie Layouts für verschiedene …

Weiterlesen …

KI-Musik: Stability AI veröffentlicht Stable Audio 3.0 mit offenen Modellgewichten

Stability AI hat Stable Audio 3.0 veröffentlicht, eine neue Familie von KI-Modellen zur Audiogenerierung. Alle Modelle wurden mit lizenzierten Musikdaten trainiert. Drei der vier Modelle sind als Open-Weight-Modelle frei verfügbar, das heißt, sie können heruntergeladen und weiterentwickelt werden. Die vier Modelle im Überblick: Small SFX, Small und Medium stehen auf Hugging Face zum Download bereit. …

Weiterlesen …

Google Gemini Spark: Ein KI-Agent, der rund um die Uhr arbeitet

Google hat auf seiner jährlichen Entwicklerkonferenz I/O den KI-Agenten Gemini Spark vorgestellt. Das System läuft dauerhaft in der Cloud und erledigt Aufgaben, ohne dass Nutzer aktiv eingreifen müssen. Spark basiert auf dem Modell Gemini 3.5 Flash und ist direkt mit Google-Workspace-Diensten wie Gmail, Docs und Slides verbunden. Nutzer können dem Agenten Aufgaben übertragen, etwa das …

Weiterlesen …

Gemini Omni: Bild, Ton und Video in einem einzigen Modell

Google hat Gemini Omni vorgestellt, ein neues KI-Modell, das Text, Bilder, Audio und Video als Eingabe akzeptiert und daraus Videos erstellt. Das Unternehmen beschreibt es als nativ multimodal: Ein einziges Modell verarbeitet alle Inhaltstypen, ohne Aufgaben an separate Systeme weiterzugeben. Das erste Modell der Familie, Gemini Omni Flash, ist jetzt für Abonnenten der Google-Pläne AI …

Weiterlesen …

Google Gemini 3.5 Flash: Schneller denken und weniger zahlen

Google hat Gemini 3.5 Flash vorgestellt. Das neue Modell für künstliche Intelligenz soll komplexe Aufgaben schnell und kostengünstig erledigen. Bisher mussten sich Unternehmen oft zwischen schnellen, günstigen Modellen und langsameren, leistungsfähigeren Systemen entscheiden. Dieses Problem möchte Google mit der Neuvorstellung lösen. Nach Angaben von Google übertrifft das neue Modell das bisherige Flaggschiff Gemini 3.1 Pro …

Weiterlesen …

×