В данной презентации обсуждаются риски безопасности, связанные с использованием низкоранговых адаптеров для доработки больших языковых моделей с открытым исходным кодом (LLM). Исследование демонстрирует, как злоумышленники могут внедрять троянские адаптеры для контроля LLM и заставлять их генерировать враждебный контент или злоупотреблять инструментами. Представлены два новых метода атаки, POLISHED и FUSION, для более эффективного обучения этих троянских адаптеров по сравнению с предыдущими подходами. POLISHED использует превосходящую LLM для лучшего согласования данных отравления, в то время как FUSION преобразует доброкачественные адаптеры во вредоносные путем чрезмерного отравления. Примеры показывают, что скомпрометированные агенты LLM могут быть использованы для управления системами с помощью вредоносного ПО для таких атак, как целевой фишинг. Исследование показывает, что эти атаки эффективны в распространении целевой дезинформации, сохраняя при этом или улучшая полезность адаптера. Были протестированы несколько методов защиты, но ни один из них не смог полностью смягчить атаки, что подчеркивает необходимость улучшения безопасности в цепочке поставок LLM. Исследование выявляет уязвимости в плагинах LLM, подчеркивая важность решения этих проблем безопасности. Авторы выражают благодарность симпозиуму по сетевым и распределенным системам безопасности (NDSS) за публикацию их исследования.
securityboulevard.com
NDSS 2025 – The Philosopher’s Stone: Trojaning Plugins Of Large Language Models
Create attached notes ...
