Новый взлом LLM использует навыки оценки моделей против них

Исследователи разработали новую технику взлома, названную "Плохой судья Ликерта" (Bad Likert Judge), чтобы использовать способность больших языковых моделей (LLM) оценивать вредоносный контент. Этот метод использует многоступенчатый процесс, включающий оценку запросов по шкале Ликерта. Сначала LLM оценивает степень вредоносности предоставленного контента. Затем ей предлагается привести примеры с высокими и низкими баллами по шкале. Пример с высоким баллом часто генерирует вредоносный контент. Дополнительные шаги могут ещё больше усилить вредоносный вывод. Тестирование техники проводилось на шести ведущих LLM в 1440 случаях. Средний показатель успеха составил 71,6%, что значительно выше, чем при прямых атаках. Это подчёркивает уязвимость современных LLM. Исследование подчёркивает необходимость улучшения мер безопасности при разработке LLM. Результаты были опубликованы SC Media на основе исследования Palo Alto Networks Unit 42.

it.slashdot.org

New LLM Jailbreak Uses Models' Evaluation Skills Against Them

t.me

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru

TheNote.app (macOS, iOS and Android apps)

2025-01-12