Playground v3 ist spezialisiert auf Grafikdesign

Das Forschungsunternehmen Playground Research stellt mit „Playground v3“ ein neues KI-Modell zur Text-Bild-Generierung vor, das offenbar in mehreren Testverfahren Spitzenleistungen erzielt. Das System zeichnet sich demnach besonders durch seine präzise Umsetzung von Textanweisungen, die Fähigkeit zum logischen Denken und eine überragende Qualität bei der Textdarstellung aus. In Nutzerstudien übertraf das Modell sogar menschliche Designer bei … Weiterlesen …

Forscher wollen den Energiehunger von KI verringern

Forscher haben eine neue Methode namens „Linear-complexity Multiplication“ (ℒ-Mul) entwickelt, um Berechnungen in künstlicher Intelligenz effizienter zu gestalten. Diese Methode ersetzt aufwendige Multiplikationen durch einfachere Additionen, wie Jason Hickey und sein Team vom Google AI Research Center in Accra schreiben. Die Wissenschaftler konnten zeigen, dass ℒ-Mul bei Sprachmodellen wie Llama und Mistral die gleiche Genauigkeit … Weiterlesen …

Differential Transformer soll die Leistung von Text-KIs verbessern

Microsoft und die Tsinghua Universität haben eine neue KI-Architektur namens „Differential Transformer“ entwickelt, die die Leistung von großen Sprachmodellen verbessert. Wie Furu Wei von Microsoft Research gegenüber VentureBeat erklärte, verstärkt die neue Methode die Aufmerksamkeit auf relevante Kontexte und filtert Störgeräusche heraus. Dies soll Probleme wie das „Lost-in-the-Middle“-Phänomen und Halluzinationen bei langen Texten reduzieren. In … Weiterlesen …

Sana ist ein kleiner und extrem schneller KI-Bildgenerator

Ein neues Text-zu-Bild-Framework namens Sana kann hochauflösende Bilder bis zu 4096 x 4096 Pixeln effizient und schnell generieren. Das System nutzt einen tiefen Kompressions-Autoencoder, lineare Aufmerksamkeit und einen Decoder-basierten Textencoder, um die Leistung zu optimieren. Sana-0.6B kann laut den Entwicklern mit modernsten großen Diffusionsmodellen konkurrieren, ist dabei aber 20-mal kleiner und über 100-mal schneller. Besonders … Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der … Weiterlesen …

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem … Weiterlesen …

Molmo soll KI-Agenten verbessern

Ein neues Open-Source-KI-Modell namens Molmo könnte die Entwicklung von KI-Agenten vorantreiben. Das vom Allen Institute for AI (Ai2) entwickelte Modell kann Bilder interpretieren und über eine Chat-Schnittstelle kommunizieren. Laut Will Knight von Wired ermöglicht dies KI-Agenten, Aufgaben wie Websurfen oder Dokumentenerstellung auszuführen. In einigen Benchmarks übertrifft es führende proprietäre Modelle wie GPT-4o von OpenAI, Claude … Weiterlesen …

WonderWorld erstellt interaktive 3D-Szenen

Mit WonderWorld lassen sich interaktive 3D-Szenen aus einem einzigen Bild generieren. Es ist das Ergebnis einer Forschungsarbeit der Stanford University und des MIT. WonderWorld ermöglicht es Nutzern demnach, Szeneninhalte und -layouts in Echtzeit festzulegen und die erstellten 3D-Welten mit geringer Latenz zu erkunden. Kernstück ist eine neue Darstellungsform namens „Fast LAyered Gaussian Surfels“ (FLAGS), die … Weiterlesen …

EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und … Weiterlesen …

Googles DataGemma ist spezialisiert auf Statistiken

Google stellt zwei neue KI-Modelle namens DataGemma vor, die statistische Anfragen genauer beantworten sollen. Die auf der Gemma-Familie basierenden Modelle nutzen Daten der Google-Plattform Data Commons, um Halluzinationen zu reduzieren. Wie Shubham Sharma in einem Artikel für Venturebeat berichtet, verwenden die Modelle zwei verschiedene Ansätze: Retrieval Interleaved Generation (RIG) und Retrieval Augmented Generation (RAG). In … Weiterlesen …