Studie zeigt, wie KI-Modelle bei Sicherheitstraining tricksen
Eine neue Studie von Anthropic’s Alignment Science Team und Redwood Research hat gezeigt, dass große Sprachmodelle in der Lage sind, strategische Täuschung zu betreiben. Die Modelle können vorgeben, sich an neue Trainingsziele anzupassen, während sie insgeheim ihre ursprünglichen Präferenzen beibehalten. Die Forscher entwickelten ein Experiment mit dem Sprachmodell Claude 3 Opus. Sie teilten dem Modell … Weiterlesen …