OpenAI erweitert Realtime-API um neue Stimmen und senkt Preise für Entwickler

OpenAI hat seine Realtime-API, die sich derzeit in der Beta-Phase befindet, um fünf neue ausdrucksstarke Stimmen für Speech-to-Speech-Anwendungen erweitert. Durch die Einführung von Prompt-Caching wurden die Kosten für Entwickler gesenkt. Laut der von VentureBeat zitierten API-Dokumentation von OpenAI ermöglicht die native Speech-to-Speech-Funktion eine geringe Latenz und nuancierte Ausgaben. Das Unternehmen präsentierte drei der neuen Stimmen …

Weiterlesen …

Microsoft: Zahlen zu OpenAI-Investitionen und KI-Wachstum

Microsoft hat bekannt gegeben, dass sein KI-Geschäft im nächsten Quartal voraussichtlich einen jährlichen Umsatz von 10 Milliarden Dollar überschreiten wird, was es zum am schnellsten wachsenden Geschäftsbereich in der Geschichte des Unternehmens macht. Der CEO von Microsoft, Satya Nadella, führt dieses Wachstum auf die Partnerschaft mit dem ChatGPT-Unternehmen OpenAI zurück. Microsoft gab in seinem Quartalsbericht …

Weiterlesen …

Meta meldet KI-Fortschritte und starke Finanzergebnisse inmitten steigender Kosten

Meta, das Mutterunternehmen von Facebook und Instagram, hat bedeutende Fortschritte in seinen Projekten zur künstlichen Intelligenz und starke Finanzergebnisse für das dritte Quartal 2024 bekannt gegeben. CEO Mark Zuckerberg enthüllte, dass Meta AI, das generative KI-Tool des Unternehmens, die Marke von 500 Millionen monatlichen Nutzern überschritten hat und auf dem besten Weg ist, weltweit der …

Weiterlesen …

Foundation Model

Foundation Model (deutsch: Grundlagenmodell oder Basismodell) bezeichnet ein großes KI-Modell, das mit riesigen Datenmengen trainiert wurde und als Grundlage für verschiedene spezialisierte Anwendungen dient. Man kann es sich wie ein Fundament vorstellen, auf dem weitere KI-Anwendungen aufbauen. Diese Modelle werden zunächst mit einem breiten Spektrum an Daten trainiert – von Texten über Bilder bis hin …

Weiterlesen …

ElevenLabs übernimmt Omnivore zur Weiterentwicklung der ElevenReader App

Das KI-Audiounternehmen ElevenLabs hat die Lese-App Omnivore übernommen. Ziel ist es, die neue ElevenReader App des Unternehmens weiterzuentwickeln. Laut einer Mitteilung der Omnivore-Gründer Jackson und Hongbo ermöglicht die Übernahme die Entwicklung zugänglicherer Lese- und Hörerlebnisse auf einer größeren Plattform. Omnivore-Nutzer können ein kostenloses ElevenReader-Konto erstellen. Bis zum 15. November 2024 haben sie die Möglichkeit, ihre …

Weiterlesen …

Moondream entwickelt kompaktes KI-Modell für Bild- und Spracherkennung

Das Startup Moondream hat in einer Pre-Seed-Finanzierungsrunde 4,5 Millionen US-Dollar eingeworben. Das Unternehmen hat ein quelloffenes Modell für Bild- und Spracherkennung entwickelt, das mit nur 1,6 Milliarden Parametern auskommt. Dennoch erreicht es laut CEO Jay Allen eine Leistung, die mit viermal größeren Modellen vergleichbar ist. Der Ansatz von Moondream ermöglicht den lokalen Einsatz von KI-Modellen …

Weiterlesen …

Read AI sammelt 50 Millionen Dollar in Series-B-Finanzierung

Das KI-Startup Read AI hat in einer Series-B-Finanzierungsrunde unter der Leitung von Smash Capital 50 Millionen Dollar eingeworben. Dies geschieht nur sechs Monate nach einer Series-A-Finanzierung in Höhe von 21 Millionen Dollar. Laut Mitbegründer David Shim verzeichnete das Unternehmen seit der letzten Finanzierungsrunde ein starkes Wachstum mit über 100.000 neuen Konten. Read AI plant, die …

Weiterlesen …

Open-Source-Toolkit Amphion unterstützt Forschung zu Audio-, Musik- und Sprachgenerierung

Das quelloffene Toolkit Amphion dient der Unterstützung von Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung. Laut Projekt-Website bietet es einzigartige Visualisierungen klassischer Modelle und Architekturen, um Nachwuchsforscher*innen und Ingenieur*innen das Verständnis zu erleichtern. Amphion unterstützt verschiedene Generierungsaufgaben wie Text-to-Speech (TTS), Gesangsstimmensynthese (SVS), Stimmkonvertierung (VC), Gesangsstimmenkonvertierung (SVC), Text-to-Audio (TTA) und Text-to-Music (TTM). Zudem …

Weiterlesen …

Nützliches KI-Modell beschleunigt Spracherkennung bei hoher Genauigkeit

Das auf die Verbesserung der Mensch-Maschine-Kommunikation spezialisierte KI-Unternehmen Useful hat Moonshine als Open-Source-Modell veröffentlicht. Es soll die Latenzzeit von Sprachschnittstellen erheblich reduzieren und gleichzeitig die Genauigkeit von OpenAIs Whisper-Modell erreichen oder übertreffen. Laut Useful-Gründer Pete Warden liefert Moonshine Ergebnisse 1,7-mal schneller als Whisper. Dank des variablen Eingabefensters verarbeitet es kurze Audioclips fünfmal schneller. Der geringe …

Weiterlesen …

KI-Startup Nooks automatisiert Verkaufsaufgaben mit 43 Millionen Dollar Finanzierung

Die von drei Stanford-Kommilitonen gegründete KI-Vertriebsplattform Nooks hat in einer von Kleiner Perkins geführten Serie-B-Runde 43 Millionen US-Dollar eingeworben. Damit erhöht sich die Gesamtfinanzierung auf 70 Millionen Dollar bei einer Bewertung von 285 Millionen Dollar. Laut CEO Daniel Lee nutzt Nooks KI, um mühsame Vertriebsaufgaben wie das Finden von Kontakten, Hinterlassen von Sprachnachrichten, Schreiben von …

Weiterlesen …