Vectorview bewertet Performance und Sicherheit

Vectorview hilft dabei, die Fähigkeiten und die Sicherheit von Sprachmodellen zu evaluieren. Durch gezielte Tests mit praxisnahen Szenarien können unbeabsichtigte Verhaltensweisen erkannt und verhindert werden, die von allgemeinen Benchmarks oft übersehen werden. Quellen: TechCrunch, Y Combinator

Jailbreak mit ASCII-Trick

Forscher aus Washington und Chicago haben mit „ArtPrompt“ eine neue Methode entwickelt, um  Sicherheitsmaßnahmen in Sprachmodellen zu umgehen. Demnach können Chatbots wie GPT-3.5, GPT-4, Gemini, Claude und Llama2 mit ASCII-Art-Prompts dazu gebracht werden, auf Anfragen zu antworten, die sie eigentlich ablehnen sollten. Dazu gehören etwa Ratschläge zum Bombenbau und zur Herstellung von Falschgeld. Quellen: Tom’s Hardware, Ars Technica