OpenAI hat seinen KI-gestützten Videogenerator Sora veröffentlicht, der nun für ChatGPT Plus- und Pro-Abonnenten über eine eigene Website verfügbar ist. Die Ankündigung erfolgte im Rahmen der „12 Days of OpenAI“-Serie, wobei eine verbesserte Version namens Sora Turbo vorgestellt wurde, die im Vergleich zum im Februar 2024 präsentierten Modell eine höhere Geschwindigkeit bietet.
Die Technologie ermöglicht es Nutzern, Videos mit einer Länge von 10 bis 20 Sekunden zu erstellen, in Auflösungen von 480p bis 1080p und in verschiedenen Seitenverhältnissen wie Querformat, quadratisch und vertikal. ChatGPT Plus-Abonnenten (20 Dollar/Monat) können monatlich bis zu 50 Videos in 480p erstellen, während Pro-Abonnenten (200 Dollar/Monat) Zugang zu höheren Auflösungen, längeren Laufzeiten und unbegrenzten Generierungen bei langsamerer Geschwindigkeit erhalten.
OpenAI hat eine spezialisierte Benutzeroberfläche für Sora entwickelt, die Raster- und Listenansichten für generierte Inhalte sowie einen Storyboard-Modus bietet, der die Erstellung mehrerer verbundener Clips mit nahtlosen Übergängen ermöglicht. Die Plattform unterstützt Eingaben durch Text, Bilder und bestehende Videos und zeigt aktuelle sowie ausgewählte Community-Kreationen an.
Tech-Rezensent Marques Brownlee (MKBHD), der frühen Zugang zur Plattform erhielt, berichtete, dass Sora zwar eindrucksvolle realistische Aufnahmen produzieren kann, aber noch Einschränkungen wie halluzinierte Details, unnatürliche Physik und inkonsistentes Objektverhalten aufweist. OpenAI hat strenge Schutzmaßnahmen gegen die Generierung von Abbildern realer Personen sowie gewalthaltige oder explizite Inhalte implementiert.
Der Veröffentlichung ging eine Kontroverse voraus, als Beta-Tester die Technologie auf Hugging Face leakten und gegen OpenAIs Umgang mit dem Testprogramm und der Vergütung der Mitwirkenden protestierten. Das Unternehmen hat Sicherheitsmaßnahmen integriert, darunter C2PA-Metadaten für Transparenz, standardmäßig sichtbare Wasserzeichen und interne Verifizierungstools zur Identifizierung von Sora-generierten Inhalten.
Der Dienst ist derzeit in den meisten Ländern verfügbar, mit Ausnahme des Vereinigten Königreichs, der Schweiz und des Europäischen Wirtschaftsraums. OpenAI erkennt die aktuellen Einschränkungen der Technologie an und gibt an, dass sie daran arbeiten, diese erschwinglicher zu machen und bis Anfang 2025 maßgeschneiderte Preisoptionen für verschiedene Nutzertypen zu entwickeln.
Diskussion bei Hacker News
Einige Höhepunkte aus der Diskussion zu Soras Start auf Hacker News:
- Einschränkungen der aktuellen KI: Nutzer äußern Frustration über die Unfähigkeit generativer KI, komplexe visuelle Konzepte aus einfachen Eingabeaufforderungen genau zu replizieren, und betonen die Notwendigkeit detaillierterer Eingaben.
- Informationsdichte in Eingabeaufforderungen: Die Diskussion hebt hervor, dass aktuelle Textprompts (typischerweise einige hundert Zeichen) unzureichend sind, um die erforderlichen Details für die präzise Bild- oder Videoerzeugung zu vermitteln, was umfassendere Beschreibungen erfordern würde.
- Rolle der menschlichen Künstler: Viele Teilnehmer schlagen vor, dass KI als Co-Pilot für menschliche Künstler fungieren sollte, um eine Zusammenarbeit zu ermöglichen, bei der die menschliche Kreativität die Ausgaben der KI leitet, anstatt sich ausschließlich auf KI für qualitativ hochwertige Inhalte zu verlassen.
- Open Source vs. Closed Source: Es gibt ein starkes Gefühl, dass Open-Source-Modelle wie Tencents Hunyuan geschlossene Optionen wie Sora übertreffen, da Künstler anpassbare Werkzeuge bevorzugen, die eine Feinabstimmung ermöglichen.
- Auswirkungen der generativen KI auf Kreativität: Die Diskussion behandelt zudem, wie generative KI zu einer Homogenisierung kreativer Outputs führen kann, wobei viele KI-generierte Werke einander ähneln und somit wahre künstlerische Innovation möglicherweise ersticken.
- Wirtschaftliche Überlegungen: Einige Teilnehmer argumentieren, dass der wirtschaftliche Druck der Inhaltserstellung zu einer Abhängigkeit von KI-generierten Outputs führen wird, die Geschwindigkeit und Kosten über künstlerische Qualität und Originalität priorisieren könnten.
- Wahrnehmung durch das Publikum: Es wird angemerkt, dass das Publikum möglicherweise die Unterschiede zwischen KI-generierten und menschlich geschaffenen Inhalten nicht erkennen kann, was zu einem Rückgang der Standards für Qualität und Kreativität in den Medien führen könnte.
- Probleme mit physischem Realismus: Generative KI hat Schwierigkeiten, Bewegung und physische Interaktionen genau darzustellen, was zu unnatürlichen Artefakten in Videoausgaben führt, die die Immersion des Zuschauers stören können.
- Zukunft der KI in der Kunst: Der Dialog deutet darauf hin, dass, wenn generative KI-Tools zugänglicher werden, sie Kunst demokratisieren könnten, sodass mehr Menschen an kreativen Prozessen teilnehmen können, wenn auch mit unterschiedlichen Qualitätsniveaus.
- Bedenken hinsichtlich Fehlinformationen: Teilnehmer äußern Bedenken über das Potenzial von KI-generierten Inhalten, die Grenzen zwischen Realität und Fiktion zu verwischen, insbesondere hinsichtlich der Auswirkungen auf das Verständnis von Kindern für die Welt und die Medienkompetenz.
Quellen: OpenAI, VentureBeat