Studie zeigt, wie KI-Modelle bei Sicherheitstraining tricksen

Eine neue Studie von Anthropic’s Alignment Science Team und Redwood Research hat gezeigt, dass große Sprachmodelle in der Lage sind, strategische Täuschung zu betreiben. Die Modelle können vorgeben, sich an neue Trainingsziele anzupassen, während sie insgeheim ihre ursprünglichen Präferenzen beibehalten. Die Forscher entwickelten ein Experiment mit dem Sprachmodell Claude 3 Opus. Sie teilten dem Modell … Weiterlesen …

Microsoft-Managerin erklärt Sicherheitsansatz und Grenzen der KI

Sarah Bird, Produktchefin für verantwortungsvolle KI bei Microsoft, hat in einem Interview mit der Financial Times die Strategie des Unternehmens für sichere KI-Entwicklung dargelegt. Bird betonte, dass generative KI zwar großes Potenzial habe, der künstlichen allgemeinen Intelligenz (AGI) aber noch grundlegende Fähigkeiten fehlen. Microsoft konzentriert sich nach Birds Aussagen darauf, menschliche Fähigkeiten durch seine „Copilot“-Systeme … Weiterlesen …

Schadsoftware in Ultralytics KI-Software entdeckt

Zwei Versionen der YOLO-KI-Software von Ultralytics enthielten schadhaften Code für Kryptowährungs-Mining. Wie Bill Toulas von Bleeping Computer berichtet, waren die Versionen 8.3.41 und 8.3.42 der beliebten Bilderkennungssoftware betroffen. Die kompromittierten Versionen installierten heimlich eine Mining-Software namens XMRig auf den Geräten der Nutzer. Ultralytics-CEO Glenn Jocher bestätigte den Vorfall und ließ die betroffenen Versionen aus dem … Weiterlesen …

Wie Anthropic seine KI-Modelle auf Sicherheitsrisiken überprüft

Das Technologieunternehmen Anthropic hat sein neuestes KI-Modell Claude 3.5 Sonnet umfangreichen Sicherheitstests unterzogen. Wie Sam Schechner im Wall Street Journal berichtet, führte das „Frontier Red Team“ unter der Leitung von Logan Graham tausende von Tests durch. Die Prüfungen konzentrierten sich auf potenzielle Risiken in den Bereichen Cybersicherheit, biologische Waffen und autonomes Handeln. Die Testergebnisse zeigten, … Weiterlesen …

Apple KI-Funktionen sorgen für Datenschutzbedenken

Die neueste iOS-Version von Apple steht wegen unklarer Datenschutzeinstellungen in der Kritik. Der Sicherheitsjournalist Spencer Ackerman, bekannt durch seine NSA-Berichterstattung bei The Guardian, äußerte Bedenken über die Standardeinstellungen in iOS 18.1. Die Diskussion dreht sich besonders um die Unterscheidung zwischen lokaler und Cloud-basierter Datenverarbeitung. Eine umstrittene Einstellung betrifft dabei nicht wie zunächst angenommen die neue … Weiterlesen …

KI-Modell GPT-4V zeigt Sicherheitslücken bei Bildverarbeitung

Forscher des Unternehmens Lakera haben Sicherheitslücken im KI-System GPT-4V aufgedeckt. Das Team konnte nachweisen, dass das Modell durch geschickt platzierte Textanweisungen in Bildern manipuliert werden kann. Die Experimente zeigten, dass bereits ein Blatt Papier mit speziellen Anweisungen ausreicht, um die KI dazu zu bringen, Menschen zu übersehen oder falsche Beschreibungen zu generieren. Die Schwachstellen ermöglichen … Weiterlesen …

KI-generierte Bilder gefährden Integrität der Forschung

KI kann inzwischen täuschend echte wissenschaftliche Abbildungen erzeugen. Dies bereitet Experten für Forschungsintegrität große Sorgen, berichtet „Nature“. Sie befürchten, dass die Fachliteratur zunehmend mit gefälschten Bildern überschwemmt wird, die nur schwer zu erkennen sind. Unternehmen wie Proofig und Imagetwin arbeiten an KI-basierten Lösungen, um manipulierte Bilder aufzuspüren. Obwohl einige Verlage bereits Hinweise auf KI-generierten Inhalt … Weiterlesen …

Patronus AI stellt API vor, die KI-Halluzinationen in Echtzeit verhindert

Das Startup Patronus AI aus San Francisco hat eine Self-Serve-API eingeführt, die KI-Fehler wie Halluzinationen und unerwünschte Antworten in Echtzeit erkennt und verhindert. Laut CEO Anand Kannappan in einem Interview mit VentureBeat bietet die Plattform mehrere Innovationen, darunter „Judge Evaluators“, mit denen Unternehmen benutzerdefinierte Regeln in einfachem Englisch erstellen können, und Lynx, ein Halluzinationserkennungsmodell, das … Weiterlesen …

Anthropic fordert gezielte KI-Regulierung

KI-Startup Anthropic, bekannt für seinen Assistenten Claude, drängt Regierungen dazu, innerhalb der nächsten 18 Monate Maßnahmen zur KI-Regulierung zu ergreifen. Ziel sei es, die wachsenden Risiken durch immer leistungsfähigere KI-Systeme einzudämmen, heißt es in einem Artikel auf der offiziellen Website des Unternehmens. Das Unternehmen argumentiert, dass eine eng fokussierte Regulierung dazu beitragen kann, die Vorteile … Weiterlesen …

Claude Computer Use verwundbar für Fernzugriff durch Prompt Injection

Das von Anthropic veröffentlichte Feature Claude Computer Use erlaubt es der KI Claude, einen Computer fernzusteuern. Dabei nutzt sie Screenshots zur Entscheidungsfindung und kann Bash-Kommandos ausführen. Ein Post auf „Embrace the Red“ demonstriert jedoch, dass dies auch erhebliche Sicherheitsrisiken birgt. Durch eine speziell gestaltete Webseite konnte der Autor Claude dazu bringen, Malware herunterzuladen und auszuführen. … Weiterlesen …