Krea AI veröffentlicht offenes Modell gegen den generischen „KI-Look“

Krea AI hat eine Open-Source-Version seines Bildmodells veröffentlicht. Sie soll Bilder mit einer unverwechselbaren Ästhetik erzeugen und den typischen Look von KI-generierten Inhalten vermeiden. In ihrem Beitrag erläuterten die Autoren Sangwu Lee und Erwann Millon die Philosophie und den Prozess hinter ihrem neuen Modell FLUX.1 Krea. Das Modell wurde in Zusammenarbeit mit Black Forest Labs entwickelt.

Das Hauptziel des Unternehmens war es, den sogenannten „KI-Look“ zu bekämpfen. Dieser Begriff beschreibt Merkmale wie übermäßig unscharfe Hintergründe, wachsartige Hauttexturen und uninspirierte Bildkompositionen, die viele KI-Bilder generisch wirken lassen. Laut Krea sind bei dem Streben nach technischen Benchmarks die stilistische Vielfalt und der kreative Charakter früherer Modelle verloren gegangen. Das Team argumentiert, dass gängige Metriken zur Messung von Modellleistung und Ästhetik oft nicht den Wünschen der Nutzer entsprechen und sogar neue Voreingenommenheiten in die Modelle einbringen können.

Um ein Modell mit einem meinungsstärkeren Stil zu schaffen, verfolgte Krea einen zweistufigen Trainingsansatz. Die erste Phase, das Pre-Training, konzentrierte sich darauf, dem Modell ein breites visuelles Weltverständnis zu vermitteln, um die Vielfalt zu maximieren. Das Unternehmen vertritt die Ansicht, dass diese Phase sogar „schlechte“ Daten beinhalten sollte, damit das Modell lernen kann, was es mithilfe von negativen Prompts vermeiden soll.

In der zweiten Phase, dem Post-Training, wird die Ästhetik des Modells geformt. Krea vergleicht diesen Vorgang mit Michelangelos Vorstellung, dass die Skulptur bereits im Marmorblock vorhanden sei und nur das überflüssige Material entfernt werden müsse. Hierfür nutzte das Team ein „rohes“ Basismodell von Black Forest Labs, das noch nicht stark verfeinert war.

Dieses Rohmodell wurde zunächst einem Supervised Finetuning (SFT) unterzogen. Dabei wurde ein kleiner, sorgfältig zusammengestellter Datensatz von weniger als einer Million Bildern verwendet, der den spezifischen ästhetischen Ansprüchen von Krea entsprach. Anschließend wurde das Modell mittels Reinforcement Learning from Human Feedback (RLHF) weiter verfeinert, wobei es auf Basis interner Präferenzdaten optimiert wurde.

Krea argumentiert, dass das Training eines Modells auf Basis breiter, „globaler“ Nutzerpräferenzen nicht optimal sei, da dies zu Ergebnissen führe, die niemanden vollständig zufriedenstellen. Stattdessen verfolgte das Unternehmen bewusst einen fokussierten Ansatz, um das Modell auf eine bestimmte künstlerische Richtung auszurichten. Diese Methode soll Nutzern eine starke stilistische Grundlage bieten, die weniger aufwendige Prompts erfordert, um hochwertige Resultate zu erzielen.

Das Modell mit dem Namen FLUX.1 Krea [dev] ist nun öffentlich auf Hugging Face zum Download verfügbar. Zudem kannst du es kostenlos ausprobieren.

Mehr zum Thema:

Bleib up-to-date: