LLaVA-o1 verbessert Bildverarbeitung durch strukturiertes Denken

Chinesische Forscher haben ein neuartiges KI-System namens LLaVA-o1 entwickelt. Ben Dickson berichtet für VentureBeat über dieses offene Sprachmodell für visuelle Verarbeitung. Das System nutzt einen vierstufigen Denkprozess: Zusammenfassung, Bildbeschreibung, Analyse und Schlussfolgerung. LLaVA-o1 basiert auf Llama-3.2-11B-Vision-Instruct und wurde mit 100.000 Bild-Text-Paaren trainiert. Eine besondere Innovation ist die „Stage-Level-Beam-Search“-Technik zur Verbesserung der Genauigkeit. In Tests übertraf … Weiterlesen …

KI-Tools für Content-Erstellung im Test

Ein Artikel von HootSuite bietet einen umfassenden Überblick über 18 KI-gestützte Werkzeuge für Content-Creator und Social-Media-Manager. Autorin Chloe West analysiert darub bekannte Plattformen wie OwlyWriter, ChatGPT, Claude und Midjourney. Die Untersuchung umfasst sowohl kostenpflichtige als auch kostenlose Optionen für Textgenerierung, Bildererstellung und Videobearbeitung. Die Analyse zeigt fünf zentrale Vorteile der KI-Nutzung auf: Zeitersparnis, Ideenfindung, Social-Media-SEO, … Weiterlesen …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot … Weiterlesen …

OmniGen: Erstes einheitliches Modell für Bildgenerierung

Forscher haben OmniGen vorgestellt, das erste Diffusionsmodell, das verschiedene Bildgenerierungsaufgaben in einem einzigen Framework vereinen kann. Im Gegensatz zu bestehenden Modellen wie Stable Diffusion benötigt OmniGen keine zusätzlichen Module, um unterschiedliche Steuerbedingungen zu verarbeiten, so die Autoren Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan et al. Das Modell kann Text-zu-Bild-Generierung, Bildbearbeitung, subjektgesteuerte Generierung, visuell-bedingte … Weiterlesen …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen … Weiterlesen …

Apple Intelligence: Erste Features jetzt verfügbar, Testergebnisse gemischt

Apple hat iOS 18.1, iPadOS 18.1 und macOS Sequoia 15.1 veröffentlicht und damit die ersten Apple Intelligence Funktionen eingeführt. Diese KI-gestützten Verbesserungen sind auf ausgewählten Geräten mit A17 Pro-, M1- oder neueren Chips verfügbar. Nutzer können nach dem Herunterladen des Updates Apple Intelligence aktivieren und werden auf eine kurze Warteliste gesetzt, um Apples Server auf … Weiterlesen …

Google Photos zeigt bald KI-Bearbeitungen an

Google Photos wird künftig bei Bildern anzeigen, ob diese mit Künstlicher Intelligenz bearbeitet wurden. Wie Chris Welch in seinem Beitrag für The Verge berichtet, werden die KI-Hinweise ab nächster Woche in der „AI info“-Sektion der Bilddetails sichtbar sein. Die Kennzeichnung gilt für Bearbeitungen mit Tools wie Magic Editor, Magic Eraser und Zoom Enhance sowie für … Weiterlesen …

Midjourney jetzt mit Bildeditor

Der KI-Bildgenerator Midjourney hat einen neuen KI-Bildeditor eingeführt, der es Nutzern ermöglicht, hochgeladene Bilder direkt zu bearbeiten und deren Stil zu verändern. Wie Carl Franzen für VentureBeat berichtet, können Nutzer mit dem neuen „Edit“-Feature beispielsweise Vintage-Fotografien in Anime-Stil umwandeln oder Handzeichnungen in Sekundenschnelle in vollwertige Kunstwerke verwandeln. Die neue Funktion ist zunächst nur für langjährige … Weiterlesen …

OpenAIs neues Modell generiert Medien 50-mal schneller

OpenAI hat ein neues KI-Modell entwickelt, das Medieninhalte wie Bilder, Videos und Audio 50-mal schneller generieren kann als bisherige Systeme. Das neue Modell, ein sogenanntes „continuous-time consistency model“, benötigt für die Erstellung eines Bildes nur noch etwa eine Zehntelsekunde statt der üblichen fünf Sekunden, berichten die OpenAI-Forscher Cheng Lu und Yang Song in einem Fachartikel. … Weiterlesen …

Playground v3 ist spezialisiert auf Grafikdesign

Das Forschungsunternehmen Playground Research stellt mit „Playground v3“ ein neues KI-Modell zur Text-Bild-Generierung vor, das offenbar in mehreren Testverfahren Spitzenleistungen erzielt. Das System zeichnet sich demnach besonders durch seine präzise Umsetzung von Textanweisungen, die Fähigkeit zum logischen Denken und eine überragende Qualität bei der Textdarstellung aus. In Nutzerstudien übertraf das Modell sogar menschliche Designer bei … Weiterlesen …