Nvidia überrascht mit leistungsstarken, offenen KI-Modellen

Nvidia hat ein leistungsstarkes Open-Source-KI-Modell veröffentlicht, das augenscheinlich mit proprietären Systemen führender Unternehmen wie OpenAI und Google konkurrieren kann. Das als NVLM 1.0 bezeichnete Modell zeigt herausragende Leistungen bei Bild- und Sprachaufgaben und verbessert zudem die reinen Textfähigkeiten. Michael Nuñez berichtet darüber für VentureBeat. Das Hauptmodell NVLM-D-72B mit 72 Milliarden Parametern kann komplexe visuelle und … Weiterlesen …

Meta Llama 3.2 ist da

Meta hat heute die neue Version seiner KI-Modellreihe vorgestellt: Llama 3.2. Erstmals umfasst diese auch Vision-Modelle, die sowohl Bilder als auch Text verarbeiten können. Die größeren Varianten mit 11 und 90 Milliarden Parametern sollen bei der Bildverarbeitung mit geschlossenen Systemen wie Claude 3 Haiku konkurrieren können. Neu sind auch kleinere Textmodelle mit 1 und 3 … Weiterlesen …

Pixtral 12B: Mistrals erstes multimodales Modell

Das französische KI-Startup Mistral hat sein erstes multimodales Modell Pixtral 12B veröffentlicht. Anders ausgedrückt: Es verfügt über 12 Milliarden Parameter und kann sowohl Bilder als auch Text verarbeiten. Es basiert auf Mistral’s bestehendem Textmodell Nemo 12B und soll in der Lage sein, Fragen zu einer beliebigen Anzahl von Bildern in beliebiger Größe zu beantworten. Pixtral … Weiterlesen …

Multimoda Arena sieht GPT-4o als Spitzenreiter

Die neue „Multimodal Arena“ von LMSYS vergleicht die Leistung verschiedener KI-Modelle bei bildbezogenen Aufgaben und zeigt: GPT-4o von OpenAI führt die Rangliste an, dicht gefolgt von Claude 3.5 Sonnet und Gemini 1.5 Pro. Überraschend: Open-Source-Modelle wie LLaVA-v1.6-34B erzielen vergleichbare Ergebnisse wie einige proprietäre Modelle. Der Haken? Trotz Fortschritten zeigt der CharXiv-Benchmark von Princeton, dass KI bei … Weiterlesen …

Apple 4M ist ein multimodaler Tausendsassa

Apple gibt mit dem „4M“-KI-Modell Einblicke in seine Fortschritte im Bereich der Künstlichen Intelligenz. Das Modell wurde in Zusammenarbeit mit der ETH Lausanne entwickelt und kann Texte in Bilder umwandeln, Objekte erkennen und 3D-Szenen anhand von Spracheingaben manipulieren.

Meta Chameleon ist eine multimodale KI

Facebooks Mutterkonzern Meta hat mit Chameleon ein neues, multimodales KI-Modell vorgestellt, das Bilder, Texte und Code gleichzeitig verarbeiten kann. Im Gegensatz zu anderen Modellen, die separate Komponenten für verschiedene Datentypen nutzen, wurde Chameleon von Grund auf für die Verarbeitung mehrerer Modalitäten konzipiert. 

Nvidia ChatRTX unterstützt jetzt Google Gemma

Nvidias Chatbot ChatRTX unterstützt jetzt Googles Gemma-Modell und ermöglicht es Nutzern, mit eigenen Dokumenten, Fotos und YouTube-Videos zu interagieren. Die Aktualisierung beinhaltet auch Sprachsuche und bietet mehr Möglichkeiten, lokal gespeicherte Daten mithilfe verschiedener KI-Modelle zu durchsuchen.

OpenAI veröffentlicht GPT-4o und weitere Neuerungen

Einen Tag vor Googles I/O versuchte OpenAI dem großen Konkurrenten die Show zu stehlen. Und ihre Demo hat definitiv für einiges Aufsehen gesorgt. Im Mittelpunkt stand dabei ihr neuestes KI-Modell GPT-4o, wobei das „o“ für „Omnimodel“ steht. Das wiederum soll deutlich machen, dass diese Version nicht nur Text verarbeitet, sondern etwa auch Bild- und Ton-Informationen. … Weiterlesen …

Multimodale KI Reka Core vorgestellt

Reka, ein KI-Startup aus San Francisco, stellt mit Reka Core ein leistungsstarkes multimodales Sprachmodell vor, das es in weniger als einem Jahr entwickelt hat und dabei mit führenden Modellen von OpenAI, Google und Anthropic mithalten oder diese sogar übertreffen kann. Das Modell versteht verschiedene Modalitäten wie Bild, Audio und Video, unterstützt 32 Sprachen und bietet ein Kontextfenster von … Weiterlesen …