Nvidia hat ein neues Open-Source-Modell zur automatischen Spracherkennung namens Parakeet-TDT-0.6B-v2 veröffentlicht. Das Modell kann laut Bericht des VentureBeat-Journalisten Carl Franzen auf Nvidia-GPU-Hardware 60 Minuten Audio in nur einer Sekunde transkribieren. Es führt aktuell die Hugging Face Open ASR Rangliste mit einer Wortfehlerrate von nur 6,05% an.
Das am 1. Mai 2025 veröffentlichte Modell steht unter einer Creative Commons CC-BY-4.0-Lizenz zur Verfügung, die auch kommerzielle Nutzung erlaubt. Dies bietet Entwicklern eine Alternative zu proprietären Modellen wie OpenAIs GPT-4o-transcribe und ElevenLabs Scribe, die zwar etwas niedrigere Fehlerraten aufweisen, aber nicht frei verfügbar sind.
Das Modell mit 600 Millionen Parametern unterstützt Zeichensetzung, Großschreibung und zeitgenaue Worterkennung. Es wurde mit dem Granary-Datensatz trainiert, der etwa 120.000 Stunden englisches Audio aus verschiedenen Quellen enthält. Nvidia plant, diesen Datensatz nach seiner Präsentation bei der Interspeech 2025 öffentlich zugänglich zu machen.
Trotz seiner leistungsstarken Fähigkeiten ist das Modell relativ ressourcenschonend und kann auf Systemen mit nur 2 GB RAM laufen, obwohl es auf Nvidia-GPU-Hardware wie A100, H100, T4 und V100 am besten funktioniert.
Entwickler können Parakeet-TDT-0.6B-v2 über Hugging Face oder Nvidias NeMo-Toolkit nutzen. Das Modell eignet sich für Transkriptionsdienste, Sprachassistenten, Untertitelerzeugung und Konversations-KI-Plattformen.