EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und …

Weiterlesen …

Googles DataGemma ist spezialisiert auf Statistiken

Google stellt zwei neue KI-Modelle namens DataGemma vor, die statistische Anfragen genauer beantworten sollen. Die auf der Gemma-Familie basierenden Modelle nutzen Daten der Google-Plattform Data Commons, um Halluzinationen zu reduzieren. Wie Shubham Sharma in einem Artikel für Venturebeat berichtet, verwenden die Modelle zwei verschiedene Ansätze: Retrieval Interleaved Generation (RIG) und Retrieval Augmented Generation (RAG). In …

Weiterlesen …

Transfusion ermöglicht Modelle für Text und Bild gleichzeitig

Ein neues Verfahren namens Transfusion ermöglicht das Training von Modellen, die sowohl Text als auch Bilder verarbeiten und generieren können. Wie Forscher von Meta und anderen Institutionen berichten, kombiniert Transfusion die Vorhersage des nächsten Tokens für Text mit Diffusion für Bilder in einem einzigen Transformer-Modell. In Experimenten zeigte sich, dass dieser Ansatz besser skaliert als …

Weiterlesen …

Studie zeigt Schwächen bei Benchmarks für KI-Agenten

Ein neuer Forschungsbericht der Princeton University enthüllt Schwächen in aktuellen Benchmarks und Bewertungspraktiken für KI-Agenten. Die Forscher bemängeln, dass die Kostenkontrolle bei der Bewertung oft vernachlässigt wird, obwohl der Ressourcenaufwand für KI-Agenten im Vergleich zu einzelnen Modellabfragen erheblich höher sein kann. Dies führe zu verzerrten Ergebnissen, da teure Agenten mit hoher Genauigkeit in Benchmarks besser abschneiden, …

Weiterlesen …

DeepMind JEST beschleunigt KI-Training

Googles DeepMind-Forscher haben eine neue Methode namens JEST entwickelt, die das KI-Training deutlich beschleunigt und gleichzeitig den Energiebedarf senkt. Durch die optimierte Auswahl von Trainingsdaten kann JEST die Anzahl der Iterationen um das 13-fache und den Rechenaufwand um das 10-fache reduzieren. 

Microsoft MInference beschleunigt Sprachmodelle

Microsofts neue Technologie „MInference“ verspricht, die Verarbeitungsgeschwindigkeit großer Sprachmodelle deutlich zu erhöhen, indem sie die Vorverarbeitungszeit langer Texte um bis zu 90% reduziert. Eine interaktive Demo auf Hugging Face ermöglicht es Entwicklern, die Technologie selbst zu testen und ihre Möglichkeiten zu erforschen. 

DeepMind V2A generiert Audio für Videos automatisch

Googles KI-Forschungslabor DeepMind hat eine neue Technologie namens V2A entwickelt, die automatisch passende Soundtracks, Soundeffekte und sogar Dialoge für Videos generieren kann. Obwohl V2A vielversprechend scheint, räumt DeepMind ein, dass die generierte Audioqualität noch nicht perfekt ist. Es ist vorerst nicht allgemein erhältlich.

Forscher behaupten drastisch bessere Energieeffizienz

Forscher haben einen Weg gefunden, die Energieeffizienz großer Sprachmodelle drastisch zu verbessern, ohne an Leistung einzubüßen. Über ihr System lässt sich ein Sprachmodell mit Milliarden von Parametern mit nur 13 Watt betreiben. Die Forscher schufen außerdem eigene Hardware, die die Energieeinsparungen noch weiter maximiert.

Neue Quellen für bessere KI-Trainingsdaten

Große Sprachmodelle (LLMs) werden nicht mehr nur mit Daten aus dem Internet trainiert. Früher basierten LLMs auf dem riesigen Datenfundus des Internets, doch die Grenzen dieses Ansatzes sind erreicht. Um LLMs weiterzuentwickeln, greifen Unternehmen wie OpenAI auf neue Datentypen zurück: Gezielte Kommentierung und Filterung verbessern die Qualität bestehender Daten, menschliches Feedback optimiert das Verhalten der Modelle, …

Weiterlesen …

Forscher arbeiten an besserer lokaler KI

Forscher erzielen große Fortschritte bei der Entwicklung von 1-Bit-LLMs, die trotz deutlich geringerem Speicherbedarf und Energieverbrauch eine ähnliche Leistung wie ihre größeren Pendants erreichen können. Diese Entwicklung könnte die Tür für komplexere KI-Anwendungen auf alltäglichen Geräten wie Smartphones öffnen, da sie weniger Rechenleistung und Energie benötigen.