Sana ist ein kleiner und extrem schneller KI-Bildgenerator

Ein neues Text-zu-Bild-Framework namens Sana kann hochauflösende Bilder bis zu 4096 x 4096 Pixeln effizient und schnell generieren. Das System nutzt einen tiefen Kompressions-Autoencoder, lineare Aufmerksamkeit und einen Decoder-basierten Textencoder, um die Leistung zu optimieren. Sana-0.6B kann laut den Entwicklern mit modernsten großen Diffusionsmodellen konkurrieren, ist dabei aber 20-mal kleiner und über 100-mal schneller. Besonders …

Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der …

Weiterlesen …

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem …

Weiterlesen …

Molmo soll KI-Agenten verbessern

Ein neues Open-Source-KI-Modell namens Molmo könnte die Entwicklung von KI-Agenten vorantreiben. Das vom Allen Institute for AI (Ai2) entwickelte Modell kann Bilder interpretieren und über eine Chat-Schnittstelle kommunizieren. Laut Will Knight von Wired ermöglicht dies KI-Agenten, Aufgaben wie Websurfen oder Dokumentenerstellung auszuführen. In einigen Benchmarks übertrifft es führende proprietäre Modelle wie GPT-4o von OpenAI, Claude …

Weiterlesen …

WonderWorld erstellt interaktive 3D-Szenen

Mit WonderWorld lassen sich interaktive 3D-Szenen aus einem einzigen Bild generieren. Es ist das Ergebnis einer Forschungsarbeit der Stanford University und des MIT. WonderWorld ermöglicht es Nutzern demnach, Szeneninhalte und -layouts in Echtzeit festzulegen und die erstellten 3D-Welten mit geringer Latenz zu erkunden. Kernstück ist eine neue Darstellungsform namens „Fast LAyered Gaussian Surfels“ (FLAGS), die …

Weiterlesen …

EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und …

Weiterlesen …

Googles DataGemma ist spezialisiert auf Statistiken

Google stellt zwei neue KI-Modelle namens DataGemma vor, die statistische Anfragen genauer beantworten sollen. Die auf der Gemma-Familie basierenden Modelle nutzen Daten der Google-Plattform Data Commons, um Halluzinationen zu reduzieren. Wie Shubham Sharma in einem Artikel für Venturebeat berichtet, verwenden die Modelle zwei verschiedene Ansätze: Retrieval Interleaved Generation (RIG) und Retrieval Augmented Generation (RAG). In …

Weiterlesen …

Transfusion ermöglicht Modelle für Text und Bild gleichzeitig

Ein neues Verfahren namens Transfusion ermöglicht das Training von Modellen, die sowohl Text als auch Bilder verarbeiten und generieren können. Wie Forscher von Meta und anderen Institutionen berichten, kombiniert Transfusion die Vorhersage des nächsten Tokens für Text mit Diffusion für Bilder in einem einzigen Transformer-Modell. In Experimenten zeigte sich, dass dieser Ansatz besser skaliert als …

Weiterlesen …

Studie zeigt Schwächen bei Benchmarks für KI-Agenten

Ein neuer Forschungsbericht der Princeton University enthüllt Schwächen in aktuellen Benchmarks und Bewertungspraktiken für KI-Agenten. Die Forscher bemängeln, dass die Kostenkontrolle bei der Bewertung oft vernachlässigt wird, obwohl der Ressourcenaufwand für KI-Agenten im Vergleich zu einzelnen Modellabfragen erheblich höher sein kann. Dies führe zu verzerrten Ergebnissen, da teure Agenten mit hoher Genauigkeit in Benchmarks besser abschneiden, …

Weiterlesen …

DeepMind JEST beschleunigt KI-Training

Googles DeepMind-Forscher haben eine neue Methode namens JEST entwickelt, die das KI-Training deutlich beschleunigt und gleichzeitig den Energiebedarf senkt. Durch die optimierte Auswahl von Trainingsdaten kann JEST die Anzahl der Iterationen um das 13-fache und den Rechenaufwand um das 10-fache reduzieren.