AI를 걷잡을 수 없게 만드는 거짓말들. [연구 토요일]

다음은 한국어 번역입니다. 체크막스의 보안 연구 옹호자인 대런 마이어(Darren Meyer)가 "Lies-in-the-Loop를 이용한 AI 에이전트 방어 우회"에 대한 연구를 공유합니다. 체크막스 제로(Checkmarx Zero) 연구원들은 "lies-in-the-loop"라는 새로운 공격 기술을 소개합니다. 이 기술은 인간 개입(human-in-the-loop) AI 안전 제어를 우회하여 사용자들을 속여 무해해 보이는 위험한 행동을 승인하게 만듭니다. 클로드 코드(Claude Code)와 같은 AI 코드 어시스턴트의 예시를 사용하여, 이 연구는 프롬프트 주입과 조작된 컨텍스트가 에이전트와 인간 검토자 모두를 속여 원격 코드 실행을 가능하게 할 수 있음을 보여줍니다. 이 연구 결과는 AI 에이전트가 개발자 워크플로우에서 더욱 보편화됨에 따라 증가하는 위험을 강조하며, 독립적인 보안 제어로서 인간 감독의 한계를 부각합니다. 연구는 다음에서 확인할 수 있습니다: Lies-In-The-Loop를 이용한 AI 에이전트 방어 우회

bsky.app

Hacker & Security News on Bluesky @hacker.at.thenote.app

thecyberwire.com

The lies that let AI run amok. [Research Saturday]

RSS Hunter

2025-12-20