SCR, Author at ✦ Smart Content Report

Soundry AI erstellt zusätzliche Musik

5. Februar 20255. April 2024

Soundry AI ist ein generatives KI-Tools für Musiker, mit der sch durch Texteingabe oder durch Beispielsamples weitere Musikschnippsel erstellen lassen. Quelle: Hacker News

OpenAI erweitert Programm für maßgeschneiderte KI-Modelle

5. Februar 20255. April 2024

OpenAI erweitert sein Programm zur Erstellung maßgeschneiderter KI-Modelle für Unternehmen, um spezifische Anwendungsfälle abzudecken. Mit Techniken wie assistiertem Fine-Tuning und kundenspezifisch trainierten Modellen sollen Organisationen jeder Größe in der Lage sein, personalisierte Modelle zu entwickeln. Quelle: TechCrunch

KI-Modelle anpassen und einsetzen mit OctoStack

5. Februar 20255. April 2024

OctoAI stellt mit OctoStack eine Plattform vor, mit der Unternehmen generative KI-Modelle an ihre Bedürfnisse anpassen und in einer eigenen Umgebung einsetzen können. Quelle: VentureBeat

Konsistente Charaktere in KI-Videos mit Eggnog

5. Februar 20255. April 2024

Eggnog ermöglicht KI-generierte Videos mit konsistenten Charakteren. Zuerst erstellt man die Person inklusive Outfits, dann im Storyboard die geplanten Szenen des Clips und erstellt das Video im letzten Schritt. Eggnog möchte zum „YouTube für KI-Videos“ werden. Quellen: TechCrunch, Y Combinator

Vectorview bewertet Performance und Sicherheit

5. Februar 20255. April 2024

Vectorview hilft dabei, die Fähigkeiten und die Sicherheit von Sprachmodellen zu evaluieren. Durch gezielte Tests mit praxisnahen Szenarien können unbeabsichtigte Verhaltensweisen erkannt und verhindert werden, die von allgemeinen Benchmarks oft übersehen werden. Quellen: TechCrunch, Y Combinator

Assembly AI zeigt Modell für Spracherkennung

5. Februar 20255. April 2024

Assembly AI stellt sein neues Spracherkennungsmodell Universal-1 vor, das im Vergleich zu OpenAIs Whisper 30% weniger Halluzinationen bei Sprachdaten und 90% weniger bei Umgebungsgeräuschen aufweisen soll. Das Modell bietet verbesserte Genauigkeit für Englisch, Spanisch, Französisch und Deutsch, unterstützt Code-Switching, optimierte Zeitstempelschätzung und schnellere Parallelverarbeitung, was für Anwendungen wie automatisierte Notizen, KI-gestützte Videobearbeitung und Telemedizin von Vorteil sein kann. …

Mit Dall-E lassen sich generierte Bilder nun weiter bearbeiten

5. Februar 20255. April 2024

Ein Demovideo auf Twitter/X zeigt eine Funktion, die landläufig als „Inpainting“ bekannt ist: Mit einem Pinselwerkzeug lassen sich Teile des Bildes auswählen und dann per Sprachbefehl verändern. Quelle: Axios

OpenAI Voice Engine vorgestellt

5. Februar 20255. April 2024

Und OpenAI stellt seine neue KI-Technologie „Voice Engine“ vor, die menschliche Stimmen offenbar täuschend echt nachahmen kann. Das Unternehmen beschränkt den Zugang aber vorerst auf ausgewählte Partner. Quelle: VentureBeat

OpenVoice kann Stimmen in vielen Sprachen klonen

5. Februar 20255. April 2024

MyShell TTS präsentiert mit OpenVoice einen vielseitigen Ansatz zum Klonen von Stimmen. Das Tool kann anhand kurzer Audioschnipsel die Stimme einer Person in mehreren Sprachen replizieren. OpenVoice ermöglicht dabei eine detaillierte Kontrolle über Stimmstil, Emotionen, Akzent, Rhythmus, Pausen und Intonation. Quelle: Hacker News

Resemble AI zeigt Rapid Voice Cloning

5. Februar 20255. April 2024

Resemble AI führt mit Rapid Voice Cloning ein Tool ein, mit dem sich innerhalb einer Minute KI-gestützte Stimmklone aus kurzen Audiodaten erstellen lassen. Quelle: VentureBeat