DeepMind stellt Talker-Reasoner-Framework für KI-Agenten vor

Forscher von DeepMind haben ein neues agentenbasiertes Framework namens Talker-Reasoner vorgestellt, das von dem „Zwei-Systeme“-Modell der menschlichen Kognition inspiriert ist. Das Framework unterteilt den KI-Agenten in zwei verschiedene Module, berichtet VentureBeat: den Talker, der Echtzeit-Interaktionen mit dem Benutzer und der Umgebung verarbeitet, und den Reasoner, der komplexe Überlegungen und Planungen durchführt. Die beiden Module interagieren … Weiterlesen …

OpenAIs neues Modell generiert Medien 50-mal schneller

OpenAI hat ein neues KI-Modell entwickelt, das Medieninhalte wie Bilder, Videos und Audio 50-mal schneller generieren kann als bisherige Systeme. Das neue Modell, ein sogenanntes „continuous-time consistency model“, benötigt für die Erstellung eines Bildes nur noch etwa eine Zehntelsekunde statt der üblichen fünf Sekunden, berichten die OpenAI-Forscher Cheng Lu und Yang Song in einem Fachartikel. … Weiterlesen …

Playground v3 ist spezialisiert auf Grafikdesign

Das Forschungsunternehmen Playground Research stellt mit „Playground v3“ ein neues KI-Modell zur Text-Bild-Generierung vor, das offenbar in mehreren Testverfahren Spitzenleistungen erzielt. Das System zeichnet sich demnach besonders durch seine präzise Umsetzung von Textanweisungen, die Fähigkeit zum logischen Denken und eine überragende Qualität bei der Textdarstellung aus. In Nutzerstudien übertraf das Modell sogar menschliche Designer bei … Weiterlesen …

Differential Transformer soll die Leistung von Text-KIs verbessern

Microsoft und die Tsinghua Universität haben eine neue KI-Architektur namens „Differential Transformer“ entwickelt, die die Leistung von großen Sprachmodellen verbessert. Wie Furu Wei von Microsoft Research gegenüber VentureBeat erklärte, verstärkt die neue Methode die Aufmerksamkeit auf relevante Kontexte und filtert Störgeräusche heraus. Dies soll Probleme wie das „Lost-in-the-Middle“-Phänomen und Halluzinationen bei langen Texten reduzieren. In … Weiterlesen …

Sana ist ein kleiner und extrem schneller KI-Bildgenerator

Ein neues Text-zu-Bild-Framework namens Sana kann hochauflösende Bilder bis zu 4096 x 4096 Pixeln effizient und schnell generieren. Das System nutzt einen tiefen Kompressions-Autoencoder, lineare Aufmerksamkeit und einen Decoder-basierten Textencoder, um die Leistung zu optimieren. Sana-0.6B kann laut den Entwicklern mit modernsten großen Diffusionsmodellen konkurrieren, ist dabei aber 20-mal kleiner und über 100-mal schneller. Besonders … Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der … Weiterlesen …

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem … Weiterlesen …

Molmo soll KI-Agenten verbessern

Ein neues Open-Source-KI-Modell namens Molmo könnte die Entwicklung von KI-Agenten vorantreiben. Das vom Allen Institute for AI (Ai2) entwickelte Modell kann Bilder interpretieren und über eine Chat-Schnittstelle kommunizieren. Laut Will Knight von Wired ermöglicht dies KI-Agenten, Aufgaben wie Websurfen oder Dokumentenerstellung auszuführen. In einigen Benchmarks übertrifft es führende proprietäre Modelle wie GPT-4o von OpenAI, Claude … Weiterlesen …

WonderWorld erstellt interaktive 3D-Szenen

Mit WonderWorld lassen sich interaktive 3D-Szenen aus einem einzigen Bild generieren. Es ist das Ergebnis einer Forschungsarbeit der Stanford University und des MIT. WonderWorld ermöglicht es Nutzern demnach, Szeneninhalte und -layouts in Echtzeit festzulegen und die erstellten 3D-Welten mit geringer Latenz zu erkunden. Kernstück ist eine neue Darstellungsform namens „Fast LAyered Gaussian Surfels“ (FLAGS), die … Weiterlesen …

EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und … Weiterlesen …