Tests zeigen beeindruckende Leistung von Googles Gemini 2.0 Flash

Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests …

Weiterlesen …

Google stellt Gemini 2.0 KI-Modell mit erweiterten Fähigkeiten und Agentenfunktionen vor

Google hat Gemini 2.0 vorgestellt, sein neuestes KI-Modell, das bedeutende Fortschritte in multimodalen Fähigkeiten und autonomen Agentenfunktionen bietet. Die experimentelle Version, Gemini 2.0 Flash, wird zunächst Entwicklern und ausgewählten Testern über Googles KI-Plattformen zur Verfügung gestellt. Laut Google kann das neue Modell Text, Bilder und mehrsprachiges Audio generieren und arbeitet dabei doppelt so schnell wie …

Weiterlesen …

Amazon stellt neue KI-Modellfamilie Nova für Text-, Bild- und Videogenerierung vor

Amazon Web Services hat Nova vorgestellt, eine neue Familie von künstlichen Intelligenzmodellen für die Generierung von Text, Bildern und Videos. Die Ankündigung erfolgte durch CEO Andy Jassy auf der AWS re:Invent Konferenz im Dezember 2024. Die Nova-Familie umfasst vier textgenerierende Modelle: Micro, Lite, Pro und Premier. Micro, Lite und Pro sind sofort für AWS-Kunden verfügbar, …

Weiterlesen …

Neue Entwicklerplattform AnyChat vereint führende KI-Sprachmodelle

Eine innovative Plattform namens AnyChat ermöglicht Entwicklern erstmals den gleichzeitigen Zugriff auf verschiedene KI-Sprachmodelle über eine einzige Schnittstelle. Der Entwickler Ahsen Khaliq hat das System so konzipiert, dass Nutzer problemlos zwischen Modellen wie ChatGPT, Google Gemini und Meta’s LLaMA wechseln können. Das berichtet Michael Nuñez für VentureBeat. Die Plattform unterstützt sowohl proprietäre als auch Open-Source-Modelle …

Weiterlesen …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot …

Weiterlesen …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen …

Weiterlesen …

Spirit LM ist Metas erstes frei verfügbares multimodales Modell

Mit Spirit LM hat Meta sein erstes frei verfügbares multimodales Sprachmodell auf den Markt gebracht, das Text- und Spracheingabe und -ausgabe integriert und sich damit als Konkurrent zu Modellen wie OpenAIs GPT-4o positioniert. Spirit LM wurde von Metas Fundamental AI Research (FAIR) Team entwickelt und zielt darauf ab, die KI-Spracherfahrung zu verbessern, indem es die …

Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der …

Weiterlesen …

Nvidia überrascht mit leistungsstarken, offenen KI-Modellen

Nvidia hat ein leistungsstarkes Open-Source-KI-Modell veröffentlicht, das augenscheinlich mit proprietären Systemen führender Unternehmen wie OpenAI und Google konkurrieren kann. Das als NVLM 1.0 bezeichnete Modell zeigt herausragende Leistungen bei Bild- und Sprachaufgaben und verbessert zudem die reinen Textfähigkeiten. Michael Nuñez berichtet darüber für VentureBeat. Das Hauptmodell NVLM-D-72B mit 72 Milliarden Parametern kann komplexe visuelle und …

Weiterlesen …

Meta Llama 3.2 ist da

Meta hat heute die neue Version seiner KI-Modellreihe vorgestellt: Llama 3.2. Erstmals umfasst diese auch Vision-Modelle, die sowohl Bilder als auch Text verarbeiten können. Die größeren Varianten mit 11 und 90 Milliarden Parametern sollen bei der Bildverarbeitung mit geschlossenen Systemen wie Claude 3 Haiku konkurrieren können. Neu sind auch kleinere Textmodelle mit 1 und 3 …

Weiterlesen …