Multimodal | Page 2 of 3 | ✦ Smart Content Report

OpenAI erweitert ChatGPT um Echtzeit-Video- und Bildschirmfreigabe-Funktionen

5. Februar 202513. Dezember 2024

OpenAI hat ChatGPT um Echtzeit-Videoanalyse und Bildschirmfreigabe-Funktionen erweitert. Die neuen Funktionen, die während eines Livestreams vorgestellt wurden, ermöglichen es ChatGPT Plus-, Team- und Pro-Abonnenten, über ihre Smartphone-Kameras mit der KI zu interagieren und ihre Bildschirminhalte für Echtzeitanalysen und praktische Unterstützung zu teilen. Die Videofunktion ermöglicht es Nutzern beispielsweise, ihre Telefone auf Objekte zu richten und …

Tests zeigen beeindruckende Leistung von Googles Gemini 2.0 Flash

5. Februar 202512. Dezember 2024

Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests …

Google stellt Gemini 2.0 KI-Modell mit erweiterten Fähigkeiten und Agentenfunktionen vor

5. Februar 202511. Dezember 2024

Google hat Gemini 2.0 vorgestellt, sein neuestes KI-Modell, das bedeutende Fortschritte in multimodalen Fähigkeiten und autonomen Agentenfunktionen bietet. Die experimentelle Version, Gemini 2.0 Flash, wird zunächst Entwicklern und ausgewählten Testern über Googles KI-Plattformen zur Verfügung gestellt. Laut Google kann das neue Modell Text, Bilder und mehrsprachiges Audio generieren und arbeitet dabei doppelt so schnell wie …

Amazon stellt neue KI-Modellfamilie Nova für Text-, Bild- und Videogenerierung vor

5. Februar 20255. Dezember 2024

Amazon Web Services hat Nova vorgestellt, eine neue Familie von künstlichen Intelligenzmodellen für die Generierung von Text, Bildern und Videos. Die Ankündigung erfolgte durch CEO Andy Jassy auf der AWS re:Invent Konferenz im Dezember 2024. Die Nova-Familie umfasst vier textgenerierende Modelle: Micro, Lite, Pro und Premier. Micro, Lite und Pro sind sofort für AWS-Kunden verfügbar, …

Neue Entwicklerplattform AnyChat vereint führende KI-Sprachmodelle

5. Februar 202519. November 2024

Eine innovative Plattform namens AnyChat ermöglicht Entwicklern erstmals den gleichzeitigen Zugriff auf verschiedene KI-Sprachmodelle über eine einzige Schnittstelle. Der Entwickler Ahsen Khaliq hat das System so konzipiert, dass Nutzer problemlos zwischen Modellen wie ChatGPT, Google Gemini und Meta’s LLaMA wechseln können. Das berichtet Michael Nuñez für VentureBeat. Die Plattform unterstützt sowohl proprietäre als auch Open-Source-Modelle …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

5. Februar 202519. November 2024

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

5. Februar 202530. Oktober 2024

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen …

Spirit LM ist Metas erstes frei verfügbares multimodales Modell

5. Februar 202521. Oktober 2024

Mit Spirit LM hat Meta sein erstes frei verfügbares multimodales Sprachmodell auf den Markt gebracht, das Text- und Spracheingabe und -ausgabe integriert und sich damit als Konkurrent zu Modellen wie OpenAIs GPT-4o positioniert. Spirit LM wurde von Metas Fundamental AI Research (FAIR) Team entwickelt und zielt darauf ab, die KI-Spracherfahrung zu verbessern, indem es die …

ARIA ist offen und multimodal

5. Februar 202516. Oktober 2024

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der …

Nvidia überrascht mit leistungsstarken, offenen KI-Modellen

5. Februar 20252. Oktober 2024

Nvidia hat ein leistungsstarkes Open-Source-KI-Modell veröffentlicht, das augenscheinlich mit proprietären Systemen führender Unternehmen wie OpenAI und Google konkurrieren kann. Das als NVLM 1.0 bezeichnete Modell zeigt herausragende Leistungen bei Bild- und Sprachaufgaben und verbessert zudem die reinen Textfähigkeiten. Michael Nuñez berichtet darüber für VentureBeat. Das Hauptmodell NVLM-D-72B mit 72 Milliarden Parametern kann komplexe visuelle und …