Multimodal | Page 3 of 4 | ✦ Smart Content Report

Amazon stellt neue KI-Modellfamilie Nova für Text-, Bild- und Videogenerierung vor

5. Februar 20255. Dezember 2024

Amazon Web Services hat Nova vorgestellt, eine neue Familie von künstlichen Intelligenzmodellen für die Generierung von Text, Bildern und Videos. Die Ankündigung erfolgte durch CEO Andy Jassy auf der AWS re:Invent Konferenz im Dezember 2024. Die Nova-Familie umfasst vier textgenerierende Modelle: Micro, Lite, Pro und Premier. Micro, Lite und Pro sind sofort für AWS-Kunden verfügbar, …

Neue Entwicklerplattform AnyChat vereint führende KI-Sprachmodelle

5. Februar 202519. November 2024

Eine innovative Plattform namens AnyChat ermöglicht Entwicklern erstmals den gleichzeitigen Zugriff auf verschiedene KI-Sprachmodelle über eine einzige Schnittstelle. Der Entwickler Ahsen Khaliq hat das System so konzipiert, dass Nutzer problemlos zwischen Modellen wie ChatGPT, Google Gemini und Meta’s LLaMA wechseln können. Das berichtet Michael Nuñez für VentureBeat. Die Plattform unterstützt sowohl proprietäre als auch Open-Source-Modelle …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

5. Februar 202519. November 2024

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

5. Februar 202530. Oktober 2024

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen …

Spirit LM ist Metas erstes frei verfügbares multimodales Modell

5. Februar 202521. Oktober 2024

Mit Spirit LM hat Meta sein erstes frei verfügbares multimodales Sprachmodell auf den Markt gebracht, das Text- und Spracheingabe und -ausgabe integriert und sich damit als Konkurrent zu Modellen wie OpenAIs GPT-4o positioniert. Spirit LM wurde von Metas Fundamental AI Research (FAIR) Team entwickelt und zielt darauf ab, die KI-Spracherfahrung zu verbessern, indem es die …

ARIA ist offen und multimodal

5. Februar 202516. Oktober 2024

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der …

Nvidia überrascht mit leistungsstarken, offenen KI-Modellen

5. Februar 20252. Oktober 2024

Nvidia hat ein leistungsstarkes Open-Source-KI-Modell veröffentlicht, das augenscheinlich mit proprietären Systemen führender Unternehmen wie OpenAI und Google konkurrieren kann. Das als NVLM 1.0 bezeichnete Modell zeigt herausragende Leistungen bei Bild- und Sprachaufgaben und verbessert zudem die reinen Textfähigkeiten. Michael Nuñez berichtet darüber für VentureBeat. Das Hauptmodell NVLM-D-72B mit 72 Milliarden Parametern kann komplexe visuelle und …

Meta Llama 3.2 ist da

5. Februar 202525. September 2024

Meta hat heute die neue Version seiner KI-Modellreihe vorgestellt: Llama 3.2. Erstmals umfasst diese auch Vision-Modelle, die sowohl Bilder als auch Text verarbeiten können. Die größeren Varianten mit 11 und 90 Milliarden Parametern sollen bei der Bildverarbeitung mit geschlossenen Systemen wie Claude 3 Haiku konkurrieren können. Neu sind auch kleinere Textmodelle mit 1 und 3 …

Pixtral 12B: Mistrals erstes multimodales Modell

5. Februar 202511. September 2024

Das französische KI-Startup Mistral hat sein erstes multimodales Modell Pixtral 12B veröffentlicht. Anders ausgedrückt: Es verfügt über 12 Milliarden Parameter und kann sowohl Bilder als auch Text verarbeiten. Es basiert auf Mistral’s bestehendem Textmodell Nemo 12B und soll in der Lage sein, Fragen zu einer beliebigen Anzahl von Bildern in beliebiger Größe zu beantworten. Pixtral …

Multimoda Arena sieht GPT-4o als Spitzenreiter

5. Februar 202512. Juli 2024

Die neue „Multimodal Arena“ von LMSYS vergleicht die Leistung verschiedener KI-Modelle bei bildbezogenen Aufgaben und zeigt: GPT-4o von OpenAI führt die Rangliste an, dicht gefolgt von Claude 3.5 Sonnet und Gemini 1.5 Pro. Überraschend: Open-Source-Modelle wie LLaVA-v1.6-34B erzielen vergleichbare Ergebnisse wie einige proprietäre Modelle. Der Haken? Trotz Fortschritten zeigt der CharXiv-Benchmark von Princeton, dass KI bei …