Neue Studie zeigt simple Methode für KI-Jailbreak
Forscher von Anthropic haben eine automatisierte Methode entdeckt, die Sicherheitssperren von KI-Systemen offenbar leicht überwinden kann. Wie Emanuel Maiberg in 404 Media berichtet, funktioniert diese „Best-of-N Jailbreaking“ genannte Technik durch zufällige Änderungen in der Schreibweise und Großschreibung von Texteingaben. Die Methode war bei mehr als 50 Prozent der Versuche erfolgreich und wurde an führenden KI-Modellen …