OWASP LLM 상위 10대 위험 요소 중 네 번째로 꼽히는 것은 데이터 및 모델 오염입니다. 데이터 오염은 데이터가 조작되어 모델에 취약점이 발생하는 것으로, 주로 편향, 잘못된 정보, 환각 등의 형태로 나타납니다. 이러한 유형의 오염은 사전 훈련부터 임베딩에 이르기까지 LLM의 전체 라이프사이클 동안 발생할 수 있으며, 외부 데이터 소스를 사용하는 모델에서 발생할 가능성이 더 높습니다. 공격자는 훈련 기간 동안 모델에 유해한 정보를 주입하여 편향된 결과를 초래할 수 있으며, 사용자는 무심코 모델과 민감한 정보를 공유할 수 있습니다. 또한 개발자가 모델이 소비하는 정보를 제한하지 않아 부정확한 데이터 소스를 섭취하도록 허용함으로써 의도치 않게 데이터 오염에 기여할 수도 있습니다. 데이터 오염 위험을 완화하려면 데이터 출처를 추적하고, 데이터 소스를 검증하고, 신뢰할 수 있는 소스를 기준으로 출력을 검증하는 것이 중요합니다. 테스트 및 버전 관리는 위험 수준을 결정하고 데이터 오염을 방지하는 데에도 매우 중요합니다. 또한 샌드박싱, 인프라 제어, 이상 징후 탐지와 같은 기술은 신뢰할 수 없는 데이터 소스에 대한 노출을 필터링하고 제한하는 데 도움이 될 수 있습니다. 데이터세트를 미세 조정하고 검색 증강 생성(Retrieval-Augmented Generation) 및 접지(grounding) 기술을 사용하면 환각 및 데이터 오염 위험을 줄일 수도 있습니다. 그러나 이러한 조치를 취하더라도 보안 팀은 경계를 늦추지 않아야 합니다. 데이터 계통이 숨겨져 있거나 테스트 중에 오염된 콘텐츠가 감지되지 않으면 데이터 오염이 여전히 발생할 수 있기 때문입니다.
securityboulevard.com
LLM04: Data & Model Poisoning – FireTail Blog
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
