새로운 LLM 탈옥이 모델의 평가 기술을 사용하여 모델에 대응합니다

연구자들은 LLM이 유해한 콘텐츠를 평가하는 기능을 악용하기 위한 "배드 라이커트 판사"라는 새로운 제일브레이크 기술을 개발했습니다. 이 방법은 라이커트 척도를 이용해 프롬프트를 채점하는 다단계 프로세스를 사용합니다. 먼저 LLM은 제공된 콘텐츠의 유해성을 채점합니다. 그런 다음 척도에서 높은 점수와 낮은 점수를 받는 예를 제공하라는 메시지가 표시됩니다. 높은 점수를 받은 예는 종종 유해한 콘텐츠를 생성합니다. 추가 단계에서는 유해한 출력을 더욱 증폭할 수 있습니다. 이 기술은 1440개의 인스턴스에서 6개의 주요 LLM에 대해 테스트되었습니다. 성공률은 평균 71.6%로 직접적인 공격보다 훨씬 높았습니다. 이는 현재 LLM의 취약성을 강조합니다. 연구는 LLM 개발에서 개선된 안전 조치의 필요성을 강조합니다. 발견 내용은 Palo Alto Networks Unit 42 연구를 기반으로 SC Media가 보고했습니다.

it.slashdot.org

New LLM Jailbreak Uses Models' Evaluation Skills Against Them

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

TheNote.app (macOS, iOS and Android apps)

2025-01-12