Neues LLM Jailbreak nutzt die Bewertungsfunktionen der Modelle gegen sie

„Forscher entwickelten eine neue Jailbreak-Technik namens „Bad Likert Judge“, um die Fähigkeit von LLMs zur Bewertung schädlicher Inhalte auszunutzen. Diese Methode verwendet einen mehrstufigen Prozess, der die Likert-Skalierung von Eingabeaufforderungen beinhaltet. Zuerst bewertet das LLM die Schädlichkeit des bereitgestellten Inhalts. Anschließend wird es aufgefordert, Beispiele zu liefern, die auf der Skala hoch und niedrig bewertet werden. Das hochbewertete Beispiel generiert oft schädliche Inhalte. Zusätzliche Schritte können die schädliche Ausgabe weiter verstärken. Die Technik wurde an sechs führenden LLMs in 1440 Instanzen getestet. Die Erfolgsrate lag durchschnittlich bei 71,6 % und damit deutlich höher als bei direkten Angriffen. Dies zeigt eine Schwachstelle in aktuellen LLMs. Die Forschung unterstreicht die Notwendigkeit verbesserter Sicherheitsmaßnahmen bei der LLM-Entwicklung. Die Ergebnisse wurden von SC Media auf der Grundlage von Untersuchungen von Palo Alto Networks Unit 42 veröffentlicht.“

it.slashdot.org

New LLM Jailbreak Uses Models' Evaluation Skills Against Them

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

TheNote.app (macOS, iOS and Android apps)

2025-01-12

Create attached notes ...