Tests zeigen beeindruckende Leistung von Googles Gemini 2.0 Flash

Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests …

Weiterlesen …

Google stellt Gemini 2.0 KI-Modell mit erweiterten Fähigkeiten und Agentenfunktionen vor

Google hat Gemini 2.0 vorgestellt, sein neuestes KI-Modell, das bedeutende Fortschritte in multimodalen Fähigkeiten und autonomen Agentenfunktionen bietet. Die experimentelle Version, Gemini 2.0 Flash, wird zunächst Entwicklern und ausgewählten Testern über Googles KI-Plattformen zur Verfügung gestellt. Laut Google kann das neue Modell Text, Bilder und mehrsprachiges Audio generieren und arbeitet dabei doppelt so schnell wie …

Weiterlesen …

NitroFusion erstellt Bilder blitzschnell auf Standardhardware

Die Universität Surrey hat ein bahnbrechendes KI-Modell namens NitroFusion vorgestellt. Das System erzeugt Bilder in Echtzeit, während Benutzer tippen. Die Entwicklung stammt aus dem SketchX-Labor des universitären Instituts für Menschen-zentrierte Künstliche Intelligenz (PAI). Das Besondere: NitroFusion läuft auf handelsüblichen Grafikkarten. Im Gegensatz zu bestehenden Bildgenerierungssystemen benötigt das Modell keine aufwendige Computerinfrastruktur. Es nutzt ein dynamisches …

Weiterlesen …

X (ehemals Twitter) führt KI-Bildgenerator Aurora ein

Der Social-Media-Dienst X (ehemals Twitter) hat einen neuen KI-Bildgenerator namens Aurora eingeführt. Wie Tech-Journalist Kyle Wiggers für TechCrunch berichtet, wurde das Tool am Samstag freigeschaltet, war jedoch kurzzeitig für einige Nutzer nicht verfügbar. Aurora ist in den Grok-Assistenten integriert und kann fotorealistische Bilder erstellen. Das System erlaubt die Generierung von Bildern öffentlicher Personen und urheberrechtlich …

Weiterlesen …

Amazon stellt neue KI-Modellfamilie Nova für Text-, Bild- und Videogenerierung vor

Amazon Web Services hat Nova vorgestellt, eine neue Familie von künstlichen Intelligenzmodellen für die Generierung von Text, Bildern und Videos. Die Ankündigung erfolgte durch CEO Andy Jassy auf der AWS re:Invent Konferenz im Dezember 2024. Die Nova-Familie umfasst vier textgenerierende Modelle: Micro, Lite, Pro und Premier. Micro, Lite und Pro sind sofort für AWS-Kunden verfügbar, …

Weiterlesen …

Luma AI erweitert KI-Plattform mit neuen Video- und Bildfunktionen

Luma AI hat seine „Dream Machine“ KI-Plattform umfassend erweitert und bietet nun erweiterte Videoproduktionsfunktionen über Web und mobile Apps an. Wie Carl Franzen berichtet, steht im Zentrum der Entwicklung das neue Bildmodell Luma Photon, das fortschrittliche Text-zu-Bild und Videoerstellung ermöglicht. Die Plattform, die seit Juni 2024 mehr als 25 Millionen registrierte Nutzer verzeichnet, bietet vier …

Weiterlesen …

LLaVA-o1 verbessert Bildverarbeitung durch strukturiertes Denken

Chinesische Forscher haben ein neuartiges KI-System namens LLaVA-o1 entwickelt. Ben Dickson berichtet für VentureBeat über dieses offene Sprachmodell für visuelle Verarbeitung. Das System nutzt einen vierstufigen Denkprozess: Zusammenfassung, Bildbeschreibung, Analyse und Schlussfolgerung. LLaVA-o1 basiert auf Llama-3.2-11B-Vision-Instruct und wurde mit 100.000 Bild-Text-Paaren trainiert. Eine besondere Innovation ist die „Stage-Level-Beam-Search“-Technik zur Verbesserung der Genauigkeit. In Tests übertraf …

Weiterlesen …

KI-Tools für Content-Erstellung im Test

Ein Artikel von HootSuite bietet einen umfassenden Überblick über 18 KI-gestützte Werkzeuge für Content-Creator und Social-Media-Manager. Autorin Chloe West analysiert darub bekannte Plattformen wie OwlyWriter, ChatGPT, Claude und Midjourney. Die Untersuchung umfasst sowohl kostenpflichtige als auch kostenlose Optionen für Textgenerierung, Bildererstellung und Videobearbeitung. Die Analyse zeigt fünf zentrale Vorteile der KI-Nutzung auf: Zeitersparnis, Ideenfindung, Social-Media-SEO, …

Weiterlesen …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot …

Weiterlesen …

OmniGen: Erstes einheitliches Modell für Bildgenerierung

Forscher haben OmniGen vorgestellt, das erste Diffusionsmodell, das verschiedene Bildgenerierungsaufgaben in einem einzigen Framework vereinen kann. Im Gegensatz zu bestehenden Modellen wie Stable Diffusion benötigt OmniGen keine zusätzlichen Module, um unterschiedliche Steuerbedingungen zu verarbeiten, so die Autoren Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan et al. Das Modell kann Text-zu-Bild-Generierung, Bildbearbeitung, subjektgesteuerte Generierung, visuell-bedingte …

Weiterlesen …