Anthropic entwickelt neues Sicherheitssystem gegen KI-Manipulation

Anthropic hat ein neues Sicherheitssystem namens „constitutional classifiers“ vorgestellt, das KI-Modelle vor Manipulationsversuchen schützt. Wie Taryn Plumb für VentureBeat berichtet, blockiert das System 95,6% aller Versuche, die Schutzfunktionen des Claude 3.5 Sonnet Modells zu umgehen. Das Unternehmen testete das System mit 10.000 künstlich erzeugten Manipulationsanfragen. In einem Sicherheitstest versuchten 185 Experten über zwei Monate lang, …

Weiterlesen …

DeepSeek R1 zeigt gravierende Sicherheitsprobleme

Neue Untersuchungen decken erhebliche Sicherheitsmängel im KI-Chatbot DeepSeek R1 auf. Wie Matt Burgess in Wired berichtet, konnten Forscher von Cisco und der University of Pennsylvania sämtliche Sicherheitsvorkehrungen des Systems umgehen. In Tests mit 50 verschiedenen schädlichen Eingaben versagten die Schutzmaßnahmen des Chatbots vollständig. Das Sicherheitsunternehmen Adversa AI bestätigte diese Ergebnisse in einer separaten Analyse. Dabei …

Weiterlesen …

Neue Studie zeigt 15 Methoden zur Umgehung von KI-Sicherheitssystemen

Forscher haben 15 fortgeschrittene Techniken identifiziert, mit denen sich die Sicherheitsmechanismen großer Sprachmodelle (LLMs) umgehen lassen. Diese Erkenntnisse stammen aus einer umfassenden Analyse des Sicherheitsexperten Nir Diamant, der verschiedene Angriffsmethoden auf KI-Systeme untersucht hat. Die Untersuchung beschreibt mehrere zentrale Angriffsvektoren, darunter sogenannte Roleplay-Jailbreaks, bei denen das KI-System dazu gebracht wird, alternative Persönlichkeiten anzunehmen, die Sicherheitsprotokolle …

Weiterlesen …

Analyse: KI-Integration vs. Ende-zu-Ende-Verschlüsselung

In einer ausführlichen Analyse untersucht der Sicherheitsexperte Matthew Green die Auswirkungen der zunehmenden KI-Integration auf die Privatsphäre verschlüsselter Kommunikation. Der Fokus liegt dabei auf den Herausforderungen, die KI-Assistenten für traditionelle Verschlüsselungssysteme darstellen. Green erläutert, dass Ende-zu-Ende-Verschlüsselung zwar in den letzten zehn Jahren zum Standard in Messaging-Apps wie Signal, WhatsApp und iMessage geworden ist, moderne KI-Systeme …

Weiterlesen …

KI erreicht hohe Erfolgsquote bei personalisierten Phishing-Angriffen

Eine neue Studie zeigt, dass KI außergewöhnlich erfolgreich personalisierte Phishing-E-Mails erstellen und versenden kann. Die Erfolgsquote liegt bei über 50 Prozent. Die Forschungsarbeit von Simon Lermen und Fred Heiding wurde jetzt veröffentlicht. Die Wissenschaftler verglichen vier verschiedene Methoden des Phishings: zufällige traditionelle Phishing-E-Mails, von Experten erstellte Nachrichten, vollautomatische KI-Nachrichten und KI-Nachrichten mit menschlicher Überprüfung. Beide …

Weiterlesen …

OpenAI entwickelt neues Sicherheitssystem für KI-Modelle

OpenAI hat ein neues Sicherheitssystem namens „deliberative alignment“ für seine KI-Modelle entwickelt, berichtet Maxwell Zeff. Das System wurde in die neuen KI-Modelle o1 und o3 integriert. Die Technologie ermöglicht es den Modellen, vor jeder Antwort die Sicherheitsrichtlinien von OpenAI zu berücksichtigen. Dies geschieht in der Inferenzphase, nachdem ein Benutzer eine Anfrage gestellt hat. Die KI-Modelle …

Weiterlesen …

Neue Studie zeigt simple Methode für KI-Jailbreak

Forscher von Anthropic haben eine automatisierte Methode entdeckt, die Sicherheitssperren von KI-Systemen offenbar leicht überwinden kann. Wie Emanuel Maiberg in 404 Media berichtet, funktioniert diese „Best-of-N Jailbreaking“ genannte Technik durch zufällige Änderungen in der Schreibweise und Großschreibung von Texteingaben. Die Methode war bei mehr als 50 Prozent der Versuche erfolgreich und wurde an führenden KI-Modellen …

Weiterlesen …

Studie zeigt, wie KI-Modelle bei Sicherheitstraining tricksen

Eine neue Studie von Anthropic’s Alignment Science Team und Redwood Research hat gezeigt, dass große Sprachmodelle in der Lage sind, strategische Täuschung zu betreiben. Die Modelle können vorgeben, sich an neue Trainingsziele anzupassen, während sie insgeheim ihre ursprünglichen Präferenzen beibehalten. Die Forscher entwickelten ein Experiment mit dem Sprachmodell Claude 3 Opus. Sie teilten dem Modell …

Weiterlesen …

Microsoft-Managerin erklärt Sicherheitsansatz und Grenzen der KI

Sarah Bird, Produktchefin für verantwortungsvolle KI bei Microsoft, hat in einem Interview mit der Financial Times die Strategie des Unternehmens für sichere KI-Entwicklung dargelegt. Bird betonte, dass generative KI zwar großes Potenzial habe, der künstlichen allgemeinen Intelligenz (AGI) aber noch grundlegende Fähigkeiten fehlen. Microsoft konzentriert sich nach Birds Aussagen darauf, menschliche Fähigkeiten durch seine „Copilot“-Systeme …

Weiterlesen …

Schadsoftware in Ultralytics KI-Software entdeckt

Zwei Versionen der YOLO-KI-Software von Ultralytics enthielten schadhaften Code für Kryptowährungs-Mining. Wie Bill Toulas von Bleeping Computer berichtet, waren die Versionen 8.3.41 und 8.3.42 der beliebten Bilderkennungssoftware betroffen. Die kompromittierten Versionen installierten heimlich eine Mining-Software namens XMRig auf den Geräten der Nutzer. Ultralytics-CEO Glenn Jocher bestätigte den Vorfall und ließ die betroffenen Versionen aus dem …

Weiterlesen …