Anthropic gibt schnelleres KI-Modell Claude 3.5 Haiku für alle frei

Anthropic hat sein neues KI-Modell Claude 3.5 Haiku für alle Nutzer freigegeben. Wie VentureBeat-Reporter Carl Franzen berichtet, war das Modell zuvor nur Entwicklern über API zugänglich. Haiku verfügt über ein Kontextfenster von 200.000 Token und übertrifft damit OpenAIs GPT-4. Das Modell erreicht laut der Benchmark-Organisation Artificial Analysis eine Reaktionszeit von 0,80 Sekunden für das erste … Weiterlesen …

OpenAI erweitert ChatGPT um Echtzeit-Video- und Bildschirmfreigabe-Funktionen

OpenAI hat ChatGPT um Echtzeit-Videoanalyse und Bildschirmfreigabe-Funktionen erweitert. Die neuen Funktionen, die während eines Livestreams vorgestellt wurden, ermöglichen es ChatGPT Plus-, Team- und Pro-Abonnenten, über ihre Smartphone-Kameras mit der KI zu interagieren und ihre Bildschirminhalte für Echtzeitanalysen und praktische Unterstützung zu teilen. Die Videofunktion ermöglicht es Nutzern beispielsweise, ihre Telefone auf Objekte zu richten und … Weiterlesen …

Tests zeigen beeindruckende Leistung von Googles Gemini 2.0 Flash

Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests … Weiterlesen …

Google stellt Gemini 2.0 KI-Modell mit erweiterten Fähigkeiten und Agentenfunktionen vor

Google hat Gemini 2.0 vorgestellt, sein neuestes KI-Modell, das bedeutende Fortschritte in multimodalen Fähigkeiten und autonomen Agentenfunktionen bietet. Die experimentelle Version, Gemini 2.0 Flash, wird zunächst Entwicklern und ausgewählten Testern über Googles KI-Plattformen zur Verfügung gestellt. Laut Google kann das neue Modell Text, Bilder und mehrsprachiges Audio generieren und arbeitet dabei doppelt so schnell wie … Weiterlesen …

Amazon stellt neue KI-Modellfamilie Nova für Text-, Bild- und Videogenerierung vor

Amazon Web Services hat Nova vorgestellt, eine neue Familie von künstlichen Intelligenzmodellen für die Generierung von Text, Bildern und Videos. Die Ankündigung erfolgte durch CEO Andy Jassy auf der AWS re:Invent Konferenz im Dezember 2024. Die Nova-Familie umfasst vier textgenerierende Modelle: Micro, Lite, Pro und Premier. Micro, Lite und Pro sind sofort für AWS-Kunden verfügbar, … Weiterlesen …

Neue Entwicklerplattform AnyChat vereint führende KI-Sprachmodelle

Eine innovative Plattform namens AnyChat ermöglicht Entwicklern erstmals den gleichzeitigen Zugriff auf verschiedene KI-Sprachmodelle über eine einzige Schnittstelle. Der Entwickler Ahsen Khaliq hat das System so konzipiert, dass Nutzer problemlos zwischen Modellen wie ChatGPT, Google Gemini und Meta’s LLaMA wechseln können. Das berichtet Michael Nuñez für VentureBeat. Die Plattform unterstützt sowohl proprietäre als auch Open-Source-Modelle … Weiterlesen …

Französisches KI-Unternehmen Mistral stellt neue Sprachmodell-Generation vor

Das Pariser Startup-Unternehmen Mistral AI präsentiert mit Pixtral Large ein neues KI-Sprachmodell mit 124 Milliarden Parametern, berichtet VentureBeat. Das Modell zeichnet sich durch seine Fähigkeit aus, sowohl Text als auch Bilder zu verarbeiten und verfügt über einen Kontextumfang von 128.000 Token. Für Forschungszwecke steht das Modell kostenlos zur Verfügung. Gleichzeitig erweitert Mistral seinen kostenlosen Chatbot … Weiterlesen …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen … Weiterlesen …

Spirit LM ist Metas erstes frei verfügbares multimodales Modell

Mit Spirit LM hat Meta sein erstes frei verfügbares multimodales Sprachmodell auf den Markt gebracht, das Text- und Spracheingabe und -ausgabe integriert und sich damit als Konkurrent zu Modellen wie OpenAIs GPT-4o positioniert. Spirit LM wurde von Metas Fundamental AI Research (FAIR) Team entwickelt und zielt darauf ab, die KI-Spracherfahrung zu verbessern, indem es die … Weiterlesen …

ARIA ist offen und multimodal

ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der … Weiterlesen …