Четвертый риск в списке OWASP Top 10 для больших языковых моделей (LLM) – это отравление данных и моделей, которое включает в себя отравление данных. Отравление данных происходит, когда данные манипулируют с целью внедрения уязвимостей в модель, часто в форме предубеждений, дезинформации или галлюцинаций. Этот тип отравления может произойти на любом этапе жизненного цикла LLM, от предварительного обучения до внедрения, и более вероятен в моделях, использующих внешние источники данных. Злоумышленники могут внедрить вредоносную информацию в модель в период ее обучения, что приведет к предвзятым результатам, а пользователи могут невольно делиться конфиденциальной информацией с моделью. Разработчики также могут непреднамеренно способствовать отравлению данных, не ограничивая информацию, которую потребляет модель, позволяя ей поглощать неточные источники данных. Чтобы снизить риск отравления данных, важно отслеживать происхождение данных, проверять источники данных и проверять результаты на соответствие надежным источникам. Тестирование и версионность также имеют решающее значение для определения уровней риска и предотвращения отравления данных. Кроме того, такие методы, как песочница, контроль инфраструктуры и обнаружение аномалий, могут помочь отфильтровать и ограничить воздействие ненадежных источников данных. Тонкая настройка наборов данных и использование генерации с расширенным поиском (Retrieval-Augmented Generation) и методов заземления (grounding techniques) также могут снизить риски галлюцинаций и отравления данных. Однако, даже при наличии этих мер, командам безопасности необходимо сохранять бдительность, поскольку отравление данных все еще может произойти, особенно когда происхождение данных скрыто или отравленный контент не обнаружен во время тестирования.
securityboulevard.com
LLM04: Data & Model Poisoning – FireTail Blog
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
