Google Deepminds Genie 3 erzeugt interaktive Welten

Google Deepmind hat Genie 3 angekündigt, ein neues KI-„World Model“. Es kann aus Text-Prompts interaktive, dreidimensionale Umgebungen erzeugen. Laut der offiziellen Mitteilung des Unternehmens können Nutzer in diesen dynamischen Welten in Echtzeit navigieren.

Das Modell generiert die Umgebungen mit einer Auflösung von 720p und läuft mit 24 Bildern pro Sekunde (fps). Google Deepmind gibt an, dass die generierten Welten über mehrere Minuten hinweg konsistent bleiben und ein visuelles Gedächtnis von etwa einer Minute haben. Das bedeutet, wenn ein Nutzer von einem Objekt wegschaut und später zurückblickt, sollte das Objekt in seinem ursprünglichen Zustand und an seinem Platz bleiben. Dies ist eine Steigerung gegenüber den 10 bis 20 Sekunden Interaktionszeit, die mit der Vorgängerversion Genie 2 möglich waren.

Neue Funktionen und Anwendungen

Eine zentrale neue Funktion von Genie 3 sind die „promptable world events“ (steuerbare Weltereignisse). Damit können Nutzer die Umgebung in Echtzeit durch zusätzliche Textbefehle verändern, nachdem die Welt bereits erschaffen wurde. Ein Nutzer könnte zum Beispiel das Wetter ändern oder neue Objekte und Charaktere in die Szene einfügen.

Google Deepmind positioniert World Models als eine entscheidende Technologie für das Training von KI-Agenten. Das Unternehmen berichtet, es habe Genie 3 getestet, indem es seinen SIMA-Agenten, einen generalistischen Agenten für virtuelle 3D-Umgebungen, Ziele in den generierten Welten verfolgen ließ.

Aktuelle Einschränkungen

Obwohl die Technologie Fortschritte zeigt, legt Google Deepmind die aktuellen Einschränkungen offen. Das Unternehmen hat mehrere zentrale Bereiche identifiziert, die sich noch in der Entwicklung befinden:

  • Aktionsraum: Die Bandbreite an direkten Aktionen, die ein Agent in der Welt ausführen kann, ist derzeit begrenzt.
  • Mehrere Agenten: Die Simulation komplexer Interaktionen zwischen mehreren unabhängigen Agenten bleibt eine Forschungsherausforderung.
  • Geografische Genauigkeit: Genie 3 kann reale Orte noch nicht mit perfekter Genauigkeit simulieren.
  • Textdarstellung: Lesbarer Text wird oft nur dann korrekt dargestellt, wenn er Teil des ursprünglichen Prompts war.
  • Interaktionsdauer: Das Modell unterstützt eine kontinuierliche Interaktion von einigen Minuten, aber keine längeren Sitzungen.

Genie 3 wird nicht für die Öffentlichkeit freigegeben. Stattdessen ist es als limitierte Forschungs-Preview für eine kleine Gruppe von Akademikern und Kreativen verfügbar. Google erklärt, dieser Ansatz ermögliche es, Feedback zu sammeln und die Risiken der Technologie kontrolliert zu erforschen.

Mehr zum Thema:

Bleib up-to-date: