KI-Startup PlayAI erhält 21 Millionen Dollar für Stimmen-Klon-Technologie

Das Technologie-Unternehmen PlayAI hat eine Seed-Finanzierung von 21 Millionen Dollar erhalten. Die Firma entwickelt KI-gestützte Systeme zur Stimmen-Kloning und Text-zu-Sprache-Konvertierung. Kyle Wiggers berichtet für TechCrunch über die von 500 Startups und Kindred Ventures angeführte Finanzierungsrunde. Das Unternehmen wurde von Hammad Syed und Mahmoud Felfel gegründet. Die Technologie ermöglicht das Erstellen synthetischer Stimmen und automatisierter Kundenservice-Agenten. …

Weiterlesen …

KI-Modell vereint Spracherkennung mit Datenschutz

Das israelische Startup aiOla hat ein neues KI-Modell namens Whisper-NER entwickelt. Carl Franzen berichtet für VentureBeat über diese Innovation, die auf OpenAIs Whisper-Framework basiert. Das Open-Source-Modell kombiniert Spracherkennung mit der automatischen Erkennung sensibler Informationen. Es kann vertrauliche Daten wie Namen, Telefonnummern und Adressen während der Transkription in Echtzeit unkenntlich machen. Das Tool ist auf Hugging …

Weiterlesen …

YouTube erweitert KI-Musikfunktion für Shorts-Videos

YouTube testet eine neue KI-gestützte Funktion für ausgewählte Content-Creator. Diese können künftig lizenzierte Musikstücke für ihre Shorts-Videos neu interpretieren lassen, berichtet The Verge. Die Technologie ermöglicht es, per Texteingabe die Stimmung oder das Genre eines Songs zu ändern. Das System erstellt daraufhin einen 30-sekündigen Soundtrack. Bekannte Künstler wie Charlie Puth und John Legend stellen ihre …

Weiterlesen …

OpenAI erweitert Realtime-API um neue Stimmen und senkt Preise für Entwickler

OpenAI hat seine Realtime-API, die sich derzeit in der Beta-Phase befindet, um fünf neue ausdrucksstarke Stimmen für Speech-to-Speech-Anwendungen erweitert. Durch die Einführung von Prompt-Caching wurden die Kosten für Entwickler gesenkt. Laut der von VentureBeat zitierten API-Dokumentation von OpenAI ermöglicht die native Speech-to-Speech-Funktion eine geringe Latenz und nuancierte Ausgaben. Das Unternehmen präsentierte drei der neuen Stimmen …

Weiterlesen …

Open-Source-Toolkit Amphion unterstützt Forschung zu Audio-, Musik- und Sprachgenerierung

Das quelloffene Toolkit Amphion dient der Unterstützung von Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung. Laut Projekt-Website bietet es einzigartige Visualisierungen klassischer Modelle und Architekturen, um Nachwuchsforscher*innen und Ingenieur*innen das Verständnis zu erleichtern. Amphion unterstützt verschiedene Generierungsaufgaben wie Text-to-Speech (TTS), Gesangsstimmensynthese (SVS), Stimmkonvertierung (VC), Gesangsstimmenkonvertierung (SVC), Text-to-Audio (TTA) und Text-to-Music (TTM). Zudem …

Weiterlesen …

Nützliches KI-Modell beschleunigt Spracherkennung bei hoher Genauigkeit

Das auf die Verbesserung der Mensch-Maschine-Kommunikation spezialisierte KI-Unternehmen Useful hat Moonshine als Open-Source-Modell veröffentlicht. Es soll die Latenzzeit von Sprachschnittstellen erheblich reduzieren und gleichzeitig die Genauigkeit von OpenAIs Whisper-Modell erreichen oder übertreffen. Laut Useful-Gründer Pete Warden liefert Moonshine Ergebnisse 1,7-mal schneller als Whisper. Dank des variablen Eingabefensters verarbeitet es kurze Audioclips fünfmal schneller. Der geringe …

Weiterlesen …

KI-Tool von Amazon kann jetzt Audio-Werbung erstellen

Amazon hat auf der Amazon unBoxed-Konferenz ein generatives KI-Tool vorgestellt, mit dem Werbetreibende neben Bildern und Videos auch Audio-Anzeigen erstellen können. Wie AdWeek berichtet, ermöglicht die neue Funktion Werbetreibenden, Anzeigen mit minimalen Produktinformationen zu erstellen, und ist Teil einer größeren Suite von Tools, die die Effizienz von Kampagnen auf Amazon-Plattformen wie Prime Video und Twitch …

Weiterlesen …

Transkriptions-KI Gladia sammelt Kapital ein

Gladia, ein Anbieter für KI-gestützte Transkription und Audio-Intelligenz, hat 16 Millionen US-Dollar Finanzierung erhalten. Das Pariser Unternehmen will damit eine neue Echtzeit-Transkriptions- und Analyse-Engine entwickeln. CEO Jean-Louis Quéguiner erklärte gegenüber VentureBeat, dass er die Firma aus Frust über bestehende Dienste gründete, die Akzente schlecht erkennen. Die neue Engine von Gladia kann über 100 Sprachen in …

Weiterlesen …

Play 3.0 mini ist für Gespräche mit KI-Assistenten optimiert

Play.ht veröffentlicht sein neues Sprachmodell „Play 3.0 mini“. Das KI-gestützte Text-to-Speech-Modell kann in über 30 Sprachen sprechen und jede Stimme oder jeden Akzent imitieren. Es bietet laut Play.ht branchenführende Geschwindigkeit und Genauigkeit. Play 3.0 mini wurde speziell für den Einsatz in Conversational AI entwickelt und soll besonders zuverlässig und kosteneffizient sein. Das Modell erreicht eine …

Weiterlesen …

Rep.ai erstellt „digitale Zwillinge“ von Verkaufsberatern

Das KI-Startup Rep.ai hat 7,5 Millionen US-Dollar Finanzierung erhalten, um seine „digitale Zwillings“-Technologie für Verkaufsberatern zu starten. Das berichtet Michael Nuñez für VentureBeat. Die Firma, früher als ServiceBell bekannt, entwickelt KI-gesteuerte Avatare, die Websitebesucher in Echtzeit-Video- und Audiogesprächen betreuen sollen. Rep.ai kombiniert dafür visuelle und stimmliche Nachbildung mit natürlicher Sprachverarbeitung, die zudem auf Marketingmaterialien des …

Weiterlesen …