Forschung - Page 11 of 13 - ✦ Smart Content Report

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

5. Februar 202511. Oktober 2024

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem …

Molmo soll KI-Agenten verbessern

5. Februar 202525. September 2024

Ein neues Open-Source-KI-Modell namens Molmo könnte die Entwicklung von KI-Agenten vorantreiben. Das vom Allen Institute for AI (Ai2) entwickelte Modell kann Bilder interpretieren und über eine Chat-Schnittstelle kommunizieren. Laut Will Knight von Wired ermöglicht dies KI-Agenten, Aufgaben wie Websurfen oder Dokumentenerstellung auszuführen. In einigen Benchmarks übertrifft es führende proprietäre Modelle wie GPT-4o von OpenAI, Claude …

WonderWorld erstellt interaktive 3D-Szenen

5. Februar 202523. September 2024

Mit WonderWorld lassen sich interaktive 3D-Szenen aus einem einzigen Bild generieren. Es ist das Ergebnis einer Forschungsarbeit der Stanford University und des MIT. WonderWorld ermöglicht es Nutzern demnach, Szeneninhalte und -layouts in Echtzeit festzulegen und die erstellten 3D-Welten mit geringer Latenz zu erkunden. Kernstück ist eine neue Darstellungsform namens „Fast LAyered Gaussian Surfels“ (FLAGS), die …

EzAudio erzeugt hochwertige Soundeffekte

5. Februar 202520. September 2024

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und …

Googles DataGemma ist spezialisiert auf Statistiken

5. Februar 202515. September 2024

Google stellt zwei neue KI-Modelle namens DataGemma vor, die statistische Anfragen genauer beantworten sollen. Die auf der Gemma-Familie basierenden Modelle nutzen Daten der Google-Plattform Data Commons, um Halluzinationen zu reduzieren. Wie Shubham Sharma in einem Artikel für Venturebeat berichtet, verwenden die Modelle zwei verschiedene Ansätze: Retrieval Interleaved Generation (RIG) und Retrieval Augmented Generation (RAG). In …

Transfusion ermöglicht Modelle für Text und Bild gleichzeitig

5. Februar 202510. September 2024

Ein neues Verfahren namens Transfusion ermöglicht das Training von Modellen, die sowohl Text als auch Bilder verarbeiten und generieren können. Wie Forscher von Meta und anderen Institutionen berichten, kombiniert Transfusion die Vorhersage des nächsten Tokens für Text mit Diffusion für Bilder in einem einzigen Transformer-Modell. In Experimenten zeigte sich, dass dieser Ansatz besser skaliert als …

Studie zeigt Schwächen bei Benchmarks für KI-Agenten

5. Februar 202512. Juli 2024

Ein neuer Forschungsbericht der Princeton University enthüllt Schwächen in aktuellen Benchmarks und Bewertungspraktiken für KI-Agenten. Die Forscher bemängeln, dass die Kostenkontrolle bei der Bewertung oft vernachlässigt wird, obwohl der Ressourcenaufwand für KI-Agenten im Vergleich zu einzelnen Modellabfragen erheblich höher sein kann. Dies führe zu verzerrten Ergebnissen, da teure Agenten mit hoher Genauigkeit in Benchmarks besser abschneiden, …

DeepMind JEST beschleunigt KI-Training

5. Februar 202512. Juli 2024

Googles DeepMind-Forscher haben eine neue Methode namens JEST entwickelt, die das KI-Training deutlich beschleunigt und gleichzeitig den Energiebedarf senkt. Durch die optimierte Auswahl von Trainingsdaten kann JEST die Anzahl der Iterationen um das 13-fache und den Rechenaufwand um das 10-fache reduzieren.

Microsoft MInference beschleunigt Sprachmodelle

5. Februar 202512. Juli 2024

Microsofts neue Technologie „MInference“ verspricht, die Verarbeitungsgeschwindigkeit großer Sprachmodelle deutlich zu erhöhen, indem sie die Vorverarbeitungszeit langer Texte um bis zu 90% reduziert. Eine interaktive Demo auf Hugging Face ermöglicht es Entwicklern, die Technologie selbst zu testen und ihre Möglichkeiten zu erforschen.

DeepMind V2A generiert Audio für Videos automatisch

5. Februar 202528. Juni 2024

Googles KI-Forschungslabor DeepMind hat eine neue Technologie namens V2A entwickelt, die automatisch passende Soundtracks, Soundeffekte und sogar Dialoge für Videos generieren kann. Obwohl V2A vielversprechend scheint, räumt DeepMind ein, dass die generierte Audioqualität noch nicht perfekt ist. Es ist vorerst nicht allgemein erhältlich.