VideoGigaGAN verbessert Video-Skalierung

VideoGigaGAN übertrifft bisherige Verfahren, um Videos hochzuskalieren, und erzeugt Videos mit hoher Detailgenauigkeit und Konsistenz. Der Ansatz basiert auf dem Bild-Hochskalierer GigaGAN und behebt dessen Probleme bei der Videoverarbeitung durch spezielle Techniken, die zu schärferen und gleichzeitig flüssigeren Videos führen. Quelle: Hacker News

Microsofts VASA-1 erstellt Videos aus einem Foto plus Audio

Microsofts VASA-1 kann menschliche Porträts zum Singen und Sprechen bringen. Er benötigt lediglich ein Standbild und eine Audiodatei mit Sprache, um bewegte Lippen, passende Mimik sowie Kopfbewegungen zu generieren. Microsoft betont, dass es sich dabei um eine reine Forschungsdemonstration handelt, ohne Pläne zur Markteinführung. 

Google-Forscher geben KI „unbegrenzte“ Aufmerksamkeitsspanne

Google-Forscher haben mit „Infini-attention“ eine Technik entwickelt, die es Sprachmodellen ermöglicht, Texte von theoretisch unendlicher Länge zu verarbeiten, ohne zusätzlichen Speicher- und Rechenaufwand zu benötigen. Quelle: VentureBeat

Symbolica will KI transparenter machen

Das KI-Startup Symbolica setzt auf einen neuartigen Ansatz, der KI-Modelle angeblich mit menschenähnlichen Denkfähigkeiten und bisher unerreichter Transparenz ausstatten soll. Das Unternehmen will nach eigener Aussage die „Alchemie“ heutiger KI-Systeme überwinden und eine wissenschaftliche Grundlage schaffen, die zu interpretierbaren, dateneffizienten und regulierbaren KI-Modellen führen soll. Quelle: VentureBeat

Quiet-STaR hilft Sprachmodellen beim Denken

Forscher der Stanford University und von Notbad AI wollen Sprachmodellen beibringen, vor dem Antworten auf Prompts nachzudenken. Durch ihr „Quiet-STaR“ genanntes Modell konnten sie die Fähigkeiten der getesteten Sprachmodelle im Bereich logisches Denken verbessern.

Google VLOGGER animiert Menschen von nur einem Foto

Google-Forscher zeigen VLOGGER, das aus einem einzigen Foto lebensechte Videos von Menschen erstellen kann, die sprechen, gestikulieren und sich bewegen. Das eröffnet eine Reihe potenzieller Anwendungen, wirft aber auch Bedenken hinsichtlich Fälschungen und Fehlinformationen auf. Quelle: VentureBeat

EMO lässt Mona Lisa singen

EMO lässt Fotos sprechen und singen. Das Forschungsprojekt EMO aus China lässt ein Foto (oder eine Grafik oder ein Gemälde wie der Mona Lisa) sprechen und singen. Die Mimik ist durchaus beeindruckend, die Lippenbewegungen nicht immer. Leider gibt es keine Möglichkeit, EMO selbst auszuprobieren.