Spirit LM ist Metas erstes frei verfügbares multimodales Modell

Mit Spirit LM hat Meta sein erstes frei verfügbares multimodales Sprachmodell auf den Markt gebracht, das Text- und Spracheingabe und -ausgabe integriert und sich damit als Konkurrent zu Modellen wie OpenAIs GPT-4o positioniert. Spirit LM wurde von Metas Fundamental AI Research (FAIR) Team entwickelt und zielt darauf ab, die KI-Spracherfahrung zu verbessern, indem es die …

Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der …

Weiterlesen …

Nvidia überrascht mit leistungsstarken, offenen KI-Modellen

Nvidia hat ein leistungsstarkes Open-Source-KI-Modell veröffentlicht, das augenscheinlich mit proprietären Systemen führender Unternehmen wie OpenAI und Google konkurrieren kann. Das als NVLM 1.0 bezeichnete Modell zeigt herausragende Leistungen bei Bild- und Sprachaufgaben und verbessert zudem die reinen Textfähigkeiten. Michael Nuñez berichtet darüber für VentureBeat. Das Hauptmodell NVLM-D-72B mit 72 Milliarden Parametern kann komplexe visuelle und …

Weiterlesen …

Meta Llama 3.2 ist da

Meta hat heute die neue Version seiner KI-Modellreihe vorgestellt: Llama 3.2. Erstmals umfasst diese auch Vision-Modelle, die sowohl Bilder als auch Text verarbeiten können. Die größeren Varianten mit 11 und 90 Milliarden Parametern sollen bei der Bildverarbeitung mit geschlossenen Systemen wie Claude 3 Haiku konkurrieren können. Neu sind auch kleinere Textmodelle mit 1 und 3 …

Weiterlesen …

Pixtral 12B: Mistrals erstes multimodales Modell

Das französische KI-Startup Mistral hat sein erstes multimodales Modell Pixtral 12B veröffentlicht. Anders ausgedrückt: Es verfügt über 12 Milliarden Parameter und kann sowohl Bilder als auch Text verarbeiten. Es basiert auf Mistral’s bestehendem Textmodell Nemo 12B und soll in der Lage sein, Fragen zu einer beliebigen Anzahl von Bildern in beliebiger Größe zu beantworten. Pixtral …

Weiterlesen …

Multimoda Arena sieht GPT-4o als Spitzenreiter

Die neue „Multimodal Arena“ von LMSYS vergleicht die Leistung verschiedener KI-Modelle bei bildbezogenen Aufgaben und zeigt: GPT-4o von OpenAI führt die Rangliste an, dicht gefolgt von Claude 3.5 Sonnet und Gemini 1.5 Pro. Überraschend: Open-Source-Modelle wie LLaVA-v1.6-34B erzielen vergleichbare Ergebnisse wie einige proprietäre Modelle. Der Haken? Trotz Fortschritten zeigt der CharXiv-Benchmark von Princeton, dass KI bei …

Weiterlesen …

Apple 4M ist ein multimodaler Tausendsassa

Apple gibt mit dem „4M“-KI-Modell Einblicke in seine Fortschritte im Bereich der Künstlichen Intelligenz. Das Modell wurde in Zusammenarbeit mit der ETH Lausanne entwickelt und kann Texte in Bilder umwandeln, Objekte erkennen und 3D-Szenen anhand von Spracheingaben manipulieren.

Meta Chameleon ist eine multimodale KI

Facebooks Mutterkonzern Meta hat mit Chameleon ein neues, multimodales KI-Modell vorgestellt, das Bilder, Texte und Code gleichzeitig verarbeiten kann. Im Gegensatz zu anderen Modellen, die separate Komponenten für verschiedene Datentypen nutzen, wurde Chameleon von Grund auf für die Verarbeitung mehrerer Modalitäten konzipiert. 

Nvidia ChatRTX unterstützt jetzt Google Gemma

Nvidias Chatbot ChatRTX unterstützt jetzt Googles Gemma-Modell und ermöglicht es Nutzern, mit eigenen Dokumenten, Fotos und YouTube-Videos zu interagieren. Die Aktualisierung beinhaltet auch Sprachsuche und bietet mehr Möglichkeiten, lokal gespeicherte Daten mithilfe verschiedener KI-Modelle zu durchsuchen.

OpenAI veröffentlicht GPT-4o und weitere Neuerungen

Einen Tag vor Googles I/O versuchte OpenAI dem großen Konkurrenten die Show zu stehlen. Und ihre Demo hat definitiv für einiges Aufsehen gesorgt. Im Mittelpunkt stand dabei ihr neuestes KI-Modell GPT-4o, wobei das „o“ für „Omnimodel“ steht. Das wiederum soll deutlich machen, dass diese Version nicht nur Text verarbeitet, sondern etwa auch Bild- und Ton-Informationen. …

Weiterlesen …