Neue Studie zeigt simple Methode für KI-Jailbreak

Forscher von Anthropic haben eine automatisierte Methode entdeckt, die Sicherheitssperren von KI-Systemen offenbar leicht überwinden kann. Wie Emanuel Maiberg in 404 Media berichtet, funktioniert diese „Best-of-N Jailbreaking“ genannte Technik durch zufällige Änderungen in der Schreibweise und Großschreibung von Texteingaben. Die Methode war bei mehr als 50 Prozent der Versuche erfolgreich und wurde an führenden KI-Modellen wie GPT-4, Claude 3.5 und Google Gemini getestet. Die Forscher konnten die Schwachstellen nicht nur bei Text-, sondern auch bei Sprach- und Bildeingaben nachweisen. Anthropic veröffentlichte diese Erkenntnisse mit dem Ziel, bessere Schutzmechanismen zu entwickeln.

Mehr zum Thema:

Bleib up-to-date: