Das Forschungsunternehmen Playground Research stellt mit „Playground v3“ ein neues KI-Modell zur Text-Bild-Generierung vor, das offenbar in mehreren Testverfahren Spitzenleistungen erzielt. Das System zeichnet sich demnach besonders durch seine präzise Umsetzung von Textanweisungen, die Fähigkeit zum logischen Denken und eine überragende Qualität bei der Textdarstellung aus. In Nutzerstudien übertraf das Modell sogar menschliche Designer bei der Gestaltung von Aufklebern, Postern und Logos.
Anders als bisherige Text-zu-Bild-Modelle nutzt Playground v3 ausschließlich ein großes Sprachmodell als Decoder zur Textverarbeitung. Die Forscher entwickelten zudem ein eigenes System zur Bildbeschreibung, das Beschreibungen in verschiedenen Detailstufen generieren kann. Das Modell beherrscht neben der fotorealistischen Bildgenerierung auch die präzise RGB-Farbsteuerung und das Verständnis mehrerer Sprachen. Zur Bewertung detaillierter Bildbeschreibungen wurde mit „CapsBench“ ein neuer Bewertungsmaßstab eingeführt.