Wie Anthropic seine KI-Modelle auf Sicherheitsrisiken überprüft

Das Technologieunternehmen Anthropic hat sein neuestes KI-Modell Claude 3.5 Sonnet umfangreichen Sicherheitstests unterzogen. Wie Sam Schechner im Wall Street Journal berichtet, führte das „Frontier Red Team“ unter der Leitung von Logan Graham tausende von Tests durch. Die Prüfungen konzentrierten sich auf potenzielle Risiken in den Bereichen Cybersicherheit, biologische Waffen und autonomes Handeln. Die Testergebnisse zeigten, …

Weiterlesen …

Apple KI-Funktionen sorgen für Datenschutzbedenken

Die neueste iOS-Version von Apple steht wegen unklarer Datenschutzeinstellungen in der Kritik. Der Sicherheitsjournalist Spencer Ackerman, bekannt durch seine NSA-Berichterstattung bei The Guardian, äußerte Bedenken über die Standardeinstellungen in iOS 18.1. Die Diskussion dreht sich besonders um die Unterscheidung zwischen lokaler und Cloud-basierter Datenverarbeitung. Eine umstrittene Einstellung betrifft dabei nicht wie zunächst angenommen die neue …

Weiterlesen …

KI-Modell GPT-4V zeigt Sicherheitslücken bei Bildverarbeitung

Forscher des Unternehmens Lakera haben Sicherheitslücken im KI-System GPT-4V aufgedeckt. Das Team konnte nachweisen, dass das Modell durch geschickt platzierte Textanweisungen in Bildern manipuliert werden kann. Die Experimente zeigten, dass bereits ein Blatt Papier mit speziellen Anweisungen ausreicht, um die KI dazu zu bringen, Menschen zu übersehen oder falsche Beschreibungen zu generieren. Die Schwachstellen ermöglichen …

Weiterlesen …

KI-generierte Bilder gefährden Integrität der Forschung

KI kann inzwischen täuschend echte wissenschaftliche Abbildungen erzeugen. Dies bereitet Experten für Forschungsintegrität große Sorgen, berichtet „Nature“. Sie befürchten, dass die Fachliteratur zunehmend mit gefälschten Bildern überschwemmt wird, die nur schwer zu erkennen sind. Unternehmen wie Proofig und Imagetwin arbeiten an KI-basierten Lösungen, um manipulierte Bilder aufzuspüren. Obwohl einige Verlage bereits Hinweise auf KI-generierten Inhalt …

Weiterlesen …

Patronus AI stellt API vor, die KI-Halluzinationen in Echtzeit verhindert

Das Startup Patronus AI aus San Francisco hat eine Self-Serve-API eingeführt, die KI-Fehler wie Halluzinationen und unerwünschte Antworten in Echtzeit erkennt und verhindert. Laut CEO Anand Kannappan in einem Interview mit VentureBeat bietet die Plattform mehrere Innovationen, darunter „Judge Evaluators“, mit denen Unternehmen benutzerdefinierte Regeln in einfachem Englisch erstellen können, und Lynx, ein Halluzinationserkennungsmodell, das …

Weiterlesen …

Anthropic fordert gezielte KI-Regulierung

KI-Startup Anthropic, bekannt für seinen Assistenten Claude, drängt Regierungen dazu, innerhalb der nächsten 18 Monate Maßnahmen zur KI-Regulierung zu ergreifen. Ziel sei es, die wachsenden Risiken durch immer leistungsfähigere KI-Systeme einzudämmen, heißt es in einem Artikel auf der offiziellen Website des Unternehmens. Das Unternehmen argumentiert, dass eine eng fokussierte Regulierung dazu beitragen kann, die Vorteile …

Weiterlesen …

Claude Computer Use verwundbar für Fernzugriff durch Prompt Injection

Das von Anthropic veröffentlichte Feature Claude Computer Use erlaubt es der KI Claude, einen Computer fernzusteuern. Dabei nutzt sie Screenshots zur Entscheidungsfindung und kann Bash-Kommandos ausführen. Ein Post auf „Embrace the Red“ demonstriert jedoch, dass dies auch erhebliche Sicherheitsrisiken birgt. Durch eine speziell gestaltete Webseite konnte der Autor Claude dazu bringen, Malware herunterzuladen und auszuführen. …

Weiterlesen …

Apple legt Private Cloud Compute offen

Apple hat laut eines Beitrags in seinem Security Research Blog sein System „Private Cloud Compute“ (PCC) für Sicherheitsforscher geöffnet. PCC soll rechenintensive Anfragen für Apple Intelligence unter Wahrung des Datenschutzes erfüllen, indem es Apples Gerätesicherheitsmodell in die Cloud bringt. Das Unternehmen stellt nun einen Sicherheitsleitfaden, eine virtuelle Forschungsumgebung und Quellcode für Schlüsselkomponenten von PCC zur …

Weiterlesen …

Anthropic testet seine KI-Modelle auf Sabotage-Fähigkeiten

Anthropic hat neue Sicherheitsbewertungen für KI-Modelle entwickelt, die deren Fähigkeit zur Sabotage testen. In einem Blog-Post beschreibt das Unternehmen vier Testarten: „Human decision sabotage“, „Code sabotage“, „Sandbagging“ und „Undermining oversight“. Bei Human decision sabotage versuchen die Modelle, Menschen zu falschen Entscheidungen zu verleiten, ohne Verdacht zu erregen. Die Code sabotage testet, ob Modelle unbemerkt Fehler …

Weiterlesen …

Endor Labs bewertet offene KI-Modelle

Endor Labs hat eine neue Plattform gestartet, um über 900.000 Open-Source-KI-Modelle nach Sicherheit, Aktivität, Qualität und Popularität zu bewerten. Die Initiative soll Bedenken hinsichtlich der Zuverlässigkeit und Sicherheit von KI-Modellen ausräumen, die oft komplexe Abhängigkeiten und Schwachstellen aufweisen, berichtet VentureBeat. Entwickler können die Plattform zu den Fähigkeiten der Modelle befragen und erhalten Einblicke in deren …

Weiterlesen …