OpenAI erweitert Realtime-API um neue Stimmen und senkt Preise für Entwickler

OpenAI hat seine Realtime-API, die sich derzeit in der Beta-Phase befindet, um fünf neue ausdrucksstarke Stimmen für Speech-to-Speech-Anwendungen erweitert. Durch die Einführung von Prompt-Caching wurden die Kosten für Entwickler gesenkt. Laut der von VentureBeat zitierten API-Dokumentation von OpenAI ermöglicht die native Speech-to-Speech-Funktion eine geringe Latenz und nuancierte Ausgaben. Das Unternehmen präsentierte drei der neuen Stimmen … Weiterlesen …

Open-Source-Toolkit Amphion unterstützt Forschung zu Audio-, Musik- und Sprachgenerierung

Das quelloffene Toolkit Amphion dient der Unterstützung von Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung. Laut Projekt-Website bietet es einzigartige Visualisierungen klassischer Modelle und Architekturen, um Nachwuchsforscher*innen und Ingenieur*innen das Verständnis zu erleichtern. Amphion unterstützt verschiedene Generierungsaufgaben wie Text-to-Speech (TTS), Gesangsstimmensynthese (SVS), Stimmkonvertierung (VC), Gesangsstimmenkonvertierung (SVC), Text-to-Audio (TTA) und Text-to-Music (TTM). Zudem … Weiterlesen …

Cerebras Inference erzielt Durchbruch bei der Leistung von Llama 3.1-70B

Cerebras hat ein bedeutendes Update für seine Cerebras Inference-Plattform vorgestellt, die nun das Sprachmodell Llama 3.1-70B mit beeindruckenden 2.100 Token pro Sekunde ausführt – eine dreifache Leistungssteigerung im Vergleich zur vorherigen Version. Laut James Wang vom offiziellen Cerebras-Blog ist diese Leistung 16-mal schneller als die schnellste GPU-Lösung und 8-mal schneller als GPUs, die das wesentlich … Weiterlesen …

Hugging Face hilft Unternehmen mit KI-Entwicklung

Das New Yorker KI-Start-up Hugging Face bringt gemeinsam mit Amazon und Google eine neue Open-Source-Software auf den Markt, die die Kosten für die Entwicklung von Chatbots und anderen KI-Systemen senken soll. Das berichtet Stephen Nellis für Reuters. Das Angebot mit dem Namen „HUGS“ (Hugging Face for Generative AI Services) automatisiert die Implementierung von KI-Modellen und … Weiterlesen …

Cohere’s Embed 3 sucht nun auch nach Bildern

Das KI-Unternehmen Cohere hat sein Embedding-Modell Embed 3 um multimodale Funktionen erweitert, sodass nun auch Bilder in RAG-basierte Unternehmenssuchen einbezogen werden können. Das berichtet Emilia David für VentureBeat. Die neue Version kann Embeddings sowohl für Bilder als auch für Texte erstellen, wobei beide Formate in einer einheitlichen Datenbank gespeichert werden. Nach Angaben von Cohere ermöglicht … Weiterlesen …

„Computer Use“: Anthropics Claude kann jetzt deinen PC steuern

Anthropic hat eine aktualisierte Version seines KI-Modells Claude 3.5 Sonnet vorgestellt. Laut Unternehmensangaben kann das Modell nun Desktop-Anwendungen steuern und PC-Aufgaben ausführen. Dafür nutzt es eine neue „Computer Use“-API, die sich in der öffentlichen Beta-Phase befindet. Anthropic betont, dass die Technologie noch fehlerbehaftet sei und empfiehlt Entwicklern, zunächst nur risikoarme Aufgaben damit zu testen. Neben … Weiterlesen …

IBM veröffentlicht Granite 3.0 Modelle für Unternehmen

IBM erweitert sein KI-Angebot für Unternehmen mit der Einführung der Granite 3.0 Large Language Models (LLMs), berichtet Sean Michael Kerner für VentureBeat. Die neuen Modelle sind als Open Source unter der Apache 2.0 Lizenz verfügbar und sollen verschiedene Anwendungsfälle wie Kundenservice, IT-Automatisierung und Cybersicherheit unterstützen. IBM betont die hohe Leistung der Modelle, die laut eigenen … Weiterlesen …

Sana ist ein kleiner und extrem schneller KI-Bildgenerator

Ein neues Text-zu-Bild-Framework namens Sana kann hochauflösende Bilder bis zu 4096 x 4096 Pixeln effizient und schnell generieren. Das System nutzt einen tiefen Kompressions-Autoencoder, lineare Aufmerksamkeit und einen Decoder-basierten Textencoder, um die Leistung zu optimieren. Sana-0.6B kann laut den Entwicklern mit modernsten großen Diffusionsmodellen konkurrieren, ist dabei aber 20-mal kleiner und über 100-mal schneller. Besonders … Weiterlesen …

Endor Labs bewertet offene KI-Modelle

Endor Labs hat eine neue Plattform gestartet, um über 900.000 Open-Source-KI-Modelle nach Sicherheit, Aktivität, Qualität und Popularität zu bewerten. Die Initiative soll Bedenken hinsichtlich der Zuverlässigkeit und Sicherheit von KI-Modellen ausräumen, die oft komplexe Abhängigkeiten und Schwachstellen aufweisen, berichtet VentureBeat. Entwickler können die Plattform zu den Fähigkeiten der Modelle befragen und erhalten Einblicke in deren … Weiterlesen …

Galileo evaluiert KI-Modelle für den Unternehmenseinsatz

Galileo, ein KI-Startup unter der Leitung von Vikram Chatterji, hat in einer Serie-B-Finanzierungsrunde 45 Millionen US-Dollar erhalten und damit seit seiner Gründung vor drei Jahren insgesamt 68 Millionen US-Dollar eingesammelt. Das Unternehmen konzentriert sich auf die Bewertung von KI-Modellen, um sicherzustellen, dass sie effektiv arbeiten und keine falschen Informationen generieren oder sensible Daten preisgeben, berichtet … Weiterlesen …