Hinter den Kulissen von Anthropic (Claude): Sicherheit als Priorität

In einem ausführlichen Artikel beleuchtet Time Magazine das KI-Unternehmen Anthropic und dessen Bemühungen, Sicherheit als oberste Priorität zu setzen. Der Mitbegründer und CEO Dario Amodei entschied sich bewusst dagegen, den leistungsstarken Chatbot Claude frühzeitig zu veröffentlichen, um potenzielle Risiken zu vermeiden. Anthropic sieht seine Mission darin, durch den Aufbau und die Erforschung mächtiger KI-Systeme empirisch zu …

Weiterlesen …

OpenAI-Insider warnen vor einer gefährlichen Unternehmenskultur

In einem offenen Brief warnen aktuelle und ehemalige Mitarbeiter von OpenAI vor einer „rücksichtslosen“ Entwicklung im Wettlauf um die Vorherrschaft bei Künstlicher Intelligenz. Sie fordern weitreichende Veränderungen in der KI-Branche, darunter mehr Transparenz und einen besseren Schutz für Whistleblower. Die Unterzeichner kritisieren eine Kultur der Geheimniskrämerei und des Profits um jeden Preis bei OpenAI. Das Unternehmen …

Weiterlesen …

Kalifornien plant strenge Sicherheitsregeln für KI

Kalifornien will strenge Sicherheitsregeln für Künstliche Intelligenz einführen, darunter einen „Kill Switch“ und Meldepflichten für Entwickler. Kritiker warnen vor Innovationshemmnissen, übertriebener Bürokratie und negativen Auswirkungen auf Open-Source-Modelle, die den Technologiesektor im US-Bundesstaat schwächen könnten.

Inspect hilft bei der KI-Sicherheitsbewertung

Das britische AI Safety Institute veröffentlicht mit „Inspect“ ein Open-Source-Toolset, das die Sicherheitsbewertung von KI-Modellen vereinfachen soll. Mit Inspect lassen sich Fähigkeiten von KI-Modellen testen, wie zum Beispiel das Kernwissen und logisches Denken.

Leitfaden für sichere KI-Systeme

Die NSA veröffentlicht in Zusammenarbeit mit internationalen Partnern einen Leitfaden mit Best Practices für die sichere Bereitstellung und den Betrieb von KI-Systemen. Das Cybersecurity Information Sheet richtet sich primär an Betreiber nationaler Sicherheitssysteme und Unternehmen der Verteidigungsindustrie, ist aber auch für andere Organisationen relevant. Quelle: Hacker News

Snapchat kennzeichnet Snap-AI-Bilder

Auch Snapchat setzt auf mehr Transparenz und strengere Richtlinien bei der Nutzung von KI. So bekommt jedes Bild, das mit Snap AI erzeugt wurde, ein neues Wasserzeichen. Quelle: TechCrunch

Vectorview bewertet Performance und Sicherheit

Vectorview hilft dabei, die Fähigkeiten und die Sicherheit von Sprachmodellen zu evaluieren. Durch gezielte Tests mit praxisnahen Szenarien können unbeabsichtigte Verhaltensweisen erkannt und verhindert werden, die von allgemeinen Benchmarks oft übersehen werden. Quellen: TechCrunch, Y Combinator

Jailbreak mit ASCII-Trick

Forscher aus Washington und Chicago haben mit „ArtPrompt“ eine neue Methode entwickelt, um  Sicherheitsmaßnahmen in Sprachmodellen zu umgehen. Demnach können Chatbots wie GPT-3.5, GPT-4, Gemini, Claude und Llama2 mit ASCII-Art-Prompts dazu gebracht werden, auf Anfragen zu antworten, die sie eigentlich ablehnen sollten. Dazu gehören etwa Ratschläge zum Bombenbau und zur Herstellung von Falschgeld. Quellen: Tom’s Hardware, Ars Technica