Diese Sprachmodelle sind zehnmal schneller als die Konkurrenz

Inception Labs hat mit Mercury eine neue Familie von Sprachmodellen vorgestellt, die auf Diffusionstechnologie basieren und Texte bis zu zehnmal schneller generieren können als herkömmliche LLMs. Die Mercury-Modelle erreichen laut Unternehmensangaben mehr als 1.000 Token pro Sekunde auf NVIDIA H100 Grafikprozessoren – eine Geschwindigkeit, die bisher nur mit Spezialchips möglich war. Das erste öffentlich verfügbare …

Weiterlesen …

You.com KI-Recherche-Tool verarbeitet über 400 Quellen gleichzeitig

You.com hat ein neues KI-Recherche-Tool namens Advanced Research & Insights Agent (ARI) eingeführt, das mehr als 400 Quellen gleichzeitig analysieren kann. Im Gespräch mit Michael Nuñez von VentureBeat erklärte CEO Richard Socher, dass das Tool Marktforschung revolutionieren soll, indem es umfassende Berichte in Minuten statt Wochen erstellt. ARI bietet direkte Quellenüberprüfung: Nutzer können auf Zitate …

Weiterlesen …

ElevenLabs’ Spracherkennungsmodell Scribe liefert 96,7% Genauigkeit

ElevenLabs hat Scribe v1 veröffentlicht, ein neues Spracherkennungsmodell mit Höchstwerten bei der Genauigkeit in 99 Sprachen. Wie Carl Franzen für VentureBeat berichtet, übertrifft das Modell Konkurrenzprodukte von Google, OpenAI und Deepgram mit einer Genauigkeitsrate von 96,7% für Englisch. Scribe kann bis zu 32 verschiedene Sprecher in einer Audiodatei unterscheiden und erkennt nichtverbale Elemente wie Lachen …

Weiterlesen …

IBM Granite 3.2 bringt „conditional reasoning“ zu Enterprise-KI

IBM hat seine Granite 3.2 Sprachmodell-Familie mit einem neuen Ansatz namens „conditional reasoning“ (bedingte Schlussfolgerung) vorgestellt. Wie Sean Michael Kerner für VentureBeat berichtet, integriert dieses Update Reasoning-Fähigkeiten direkt in die Kernmodelle, anstatt separate Reasoning-Modelle zu erstellen. Das System ermöglicht Nutzern, die Reasoning-Funktion nur bei Bedarf zu aktivieren, was die Effizienz bei komplexen Aufgaben verbessern soll. …

Weiterlesen …

Alibaba veröffentlicht KI-Modell Wan 2.1 als Open Source

Der chinesische E-Commerce-Konzern Alibaba hat sein KI-Modell Wan 2.1 zur Generierung von Videos und Bildern als Open Source freigegeben. Vier Varianten des Modells sind nun weltweit über die Plattformen ModelScope und HuggingFace für akademische, Forschungs- und kommerzielle Zwecke verfügbar, wie Reuters berichtet. Die leistungsstärksten Versionen können bis zu 14 Milliarden Parameter verarbeiten und damit präzisere …

Weiterlesen …

Sesame zeigt KI-Assistenten mit natürlicher Gesprächspräsenz

Sesame, ein Startup unter der Leitung des Oculus-Mitbegründers Brendan Iribe, hat einen neuen KI-Sprachassistenten namens Maya vorgestellt, der darauf abzielt, „das Uncanny Valley der Konversationssprache“ zu überwinden. Laut eines kürzlich erschienenen Artikels des Technologiejournalisten Sean Hollister bietet Maya natürlichere und ansprechendere Gespräche im Vergleich zu bestehenden Sprachassistenten wie Amazon’s Alexa oder Google’s Gemini. Das Unternehmen …

Weiterlesen …

Hume AI stellt Octave vor, ein Text-to-Speech-Modell mit emotionalen Steuerelementen

Das Startup Hume AI hat ein neues Text-to-Speech-System namens Octave eingeführt, das emotional nuancierte KI-Stimmen erzeugt. Laut einem Bericht von Carl Franzen für VentureBeat basiert das Modell auf einem Large Language Model, das Ton, Rhythmus und Sprachmelodie kontextabhängig anpassen kann. Nutzer können Emotionen auf Satzebene durch einfache Textbefehle wie „fröhlicher“ oder „sarkastischer“ steuern. Octave richtet …

Weiterlesen …

Microsoft macht Voice und Think Deeper für alle Copilot-Nutzer verfügbar

Microsoft bietet ab sofort unbegrenzten Zugang zu den Funktionen Voice und Think Deeper kostenlos für alle Copilot-Nutzer an. Das Copilot-Team stellte diese erweiterten Fähigkeiten vor, um den KI-Assistenten weiterzuentwickeln. Voice ermöglicht ausgedehnte Sprachgespräche mit der KI. Think Deeper, das auf OpenAIs o1-Modell basiert, bewältigt komplexe Denkaufgaben. Bisher stießen Nutzer bei diesen Funktionen auf Nutzungsbeschränkungen. Das …

Weiterlesen …

OpenAI führt Sora in Europa ein

OpenAI hat sein Videogenerierungstool Sora nun in Großbritannien und Kontinentaleuropa verfügbar gemacht. Das Werkzeug, das per Texteingabe Videos erstellt, steht zahlenden ChatGPT Plus und Pro Nutzern zur Verfügung. Wie Dan Milmo vom Guardian berichtet, präsentierte OpenAI Beispiele von Künstlern aus der Region, darunter die britische Digitalkünstlerin Josephine Miller mit einem zweiminütigen Video von Models in …

Weiterlesen …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, …

Weiterlesen …