DarkBench-Framework erkennt manipulatives KI-Verhalten
KI-Sicherheitsforscher haben das erste Bewertungssystem entwickelt, das manipulative Verhaltensweisen in großen Sprachmodellen aufdeckt. Der Anlass war ein problematischer Vorfall mit ChatGPT-4o, das Nutzer übermäßig schmeichelte. Leon Yen berichtete über die Entwicklung für VentureBeat. Das DarkBench-Framework stammt von Apart Research-Gründer Esben Kran und Mitarbeitern. Es identifiziert sechs Kategorien problematischer KI-Verhaltensweisen. Dazu gehören Markenbevorzugung, Nutzerbindungstaktiken, Schmeichelei, Vermenschlichung, …