Microsoft MInference beschleunigt Sprachmodelle

Microsofts neue Technologie „MInference“ verspricht, die Verarbeitungsgeschwindigkeit großer Sprachmodelle deutlich zu erhöhen, indem sie die Vorverarbeitungszeit langer Texte um bis zu 90% reduziert. Eine interaktive Demo auf Hugging Face ermöglicht es Entwicklern, die Technologie selbst zu testen und ihre Möglichkeiten zu erforschen. 

DeepMind V2A generiert Audio für Videos automatisch

Googles KI-Forschungslabor DeepMind hat eine neue Technologie namens V2A entwickelt, die automatisch passende Soundtracks, Soundeffekte und sogar Dialoge für Videos generieren kann. Obwohl V2A vielversprechend scheint, räumt DeepMind ein, dass die generierte Audioqualität noch nicht perfekt ist. Es ist vorerst nicht allgemein erhältlich.

Forscher behaupten drastisch bessere Energieeffizienz

Forscher haben einen Weg gefunden, die Energieeffizienz großer Sprachmodelle drastisch zu verbessern, ohne an Leistung einzubüßen. Über ihr System lässt sich ein Sprachmodell mit Milliarden von Parametern mit nur 13 Watt betreiben. Die Forscher schufen außerdem eigene Hardware, die die Energieeinsparungen noch weiter maximiert.

Neue Quellen für bessere KI-Trainingsdaten

Große Sprachmodelle (LLMs) werden nicht mehr nur mit Daten aus dem Internet trainiert. Früher basierten LLMs auf dem riesigen Datenfundus des Internets, doch die Grenzen dieses Ansatzes sind erreicht. Um LLMs weiterzuentwickeln, greifen Unternehmen wie OpenAI auf neue Datentypen zurück: Gezielte Kommentierung und Filterung verbessern die Qualität bestehender Daten, menschliches Feedback optimiert das Verhalten der Modelle, …

Weiterlesen …

Forscher arbeiten an besserer lokaler KI

Forscher erzielen große Fortschritte bei der Entwicklung von 1-Bit-LLMs, die trotz deutlich geringerem Speicherbedarf und Energieverbrauch eine ähnliche Leistung wie ihre größeren Pendants erreichen können. Diese Entwicklung könnte die Tür für komplexere KI-Anwendungen auf alltäglichen Geräten wie Smartphones öffnen, da sie weniger Rechenleistung und Energie benötigen.

Googles Gecko bewertet Bildgeneratoren

Google DeepMind entwickelt mit „Gecko“ einen neuen Standard, um die Fähigkeiten von KI-Bildgeneratoren genauer zu bewerten. Es soll dabei helfen, die Stärken und Schwächen der KI-Modelle besser zu verstehen und ihre Entwicklung voranzutreiben.

Megalodon ist eine neue Architektur für KI-Modelle

Forscher von Meta und der University of Southern California haben mit „Megalodon“ eine neue Architektur für KI-Modelle entwickelt. Es ermöglicht Sprachmodellen, deutlich größere Textmengen zu verarbeiten, ohne dabei viel Speicherplatz zu benötigen.

VideoGigaGAN verbessert Video-Skalierung

VideoGigaGAN übertrifft bisherige Verfahren, um Videos hochzuskalieren, und erzeugt Videos mit hoher Detailgenauigkeit und Konsistenz. Der Ansatz basiert auf dem Bild-Hochskalierer GigaGAN und behebt dessen Probleme bei der Videoverarbeitung durch spezielle Techniken, die zu schärferen und gleichzeitig flüssigeren Videos führen. Quelle: Hacker News

Microsofts VASA-1 erstellt Videos aus einem Foto plus Audio

Microsofts VASA-1 kann menschliche Porträts zum Singen und Sprechen bringen. Er benötigt lediglich ein Standbild und eine Audiodatei mit Sprache, um bewegte Lippen, passende Mimik sowie Kopfbewegungen zu generieren. Microsoft betont, dass es sich dabei um eine reine Forschungsdemonstration handelt, ohne Pläne zur Markteinführung. 

Google-Forscher geben KI „unbegrenzte“ Aufmerksamkeitsspanne

Google-Forscher haben mit „Infini-attention“ eine Technik entwickelt, die es Sprachmodellen ermöglicht, Texte von theoretisch unendlicher Länge zu verarbeiten, ohne zusätzlichen Speicher- und Rechenaufwand zu benötigen. Quelle: VentureBeat