OpenAI-Datensatz soll Mehrsprachigkeit verbessern

OpenAI hat einen mehrsprachigen Datensatz veröffentlicht, der die Leistung von KI-Modellen in 14 Sprachen bewertet. Wie Michael Nuñez für VentureBeat berichtet, umfasst der „Multilingual Massive Multitask Language Understanding“ (MMMLU) Datensatz Sprachen wie Arabisch, Deutsch, Swahili und Yoruba. Er wurde auf der offenen Datenplattform Hugging Face geteilt und baut auf dem beliebten MMLU-Benchmark auf, der bisher nur Englisch abdeckte. Durch den Einsatz professioneller Übersetzer stellt OpenAI eine höhere Genauigkeit sicher als vergleichbare maschinell übersetzte Datensätze. Diese Initiative könnte den globalen Zugang zur KI-Technologie verbessern und Unternehmen helfen, ihre KI-Systeme im internationalen Kontext zu bewerten.

Aus der offiziellen Mitteilung auf Hugging Face:

Die MMLU ist ein weithin anerkannter Maßstab für das von KI-Modellen erworbene Allgemeinwissen. Er deckt ein breites Spektrum von Themen aus 57 verschiedenen Kategorien ab, von Grundschulwissen bis hin zu fortgeschrittenen Fachgebieten wie Recht, Physik, Geschichte und Informatik.

Wir übersetzten die MMLU-Testreihe mit Hilfe professioneller Übersetzer in 14 Sprachen. Der Rückgriff auf menschliche Übersetzer für diese Bewertung erhöht das Vertrauen in die Genauigkeit der Übersetzungen, insbesondere bei Sprachen mit geringen Ressourcen wie Yoruba. Wir veröffentlichen die von professionellen Übersetzern angefertigten Übersetzungen und den Code, den wir zur Durchführung der Evaluierungen verwenden.

Diese Bemühungen spiegeln unser Engagement für die Verbesserung der mehrsprachigen Fähigkeiten von KI-Modellen wider, um sicherzustellen, dass sie in allen Sprachen genau funktionieren, insbesondere in unterrepräsentierten Gemeinschaften. Indem wir qualitativ hochwertige Übersetzungen in den Vordergrund stellen, wollen wir die KI-Technologie für Nutzer auf der ganzen Welt integrativer und effektiver machen.

Mehr zum Thema:

Bleib up-to-date: