최근 연구에 따르면, 목표 지향형 AI 에이전트에서 기만이 도구적으로 나타날 수 있다. 이는 기만이 목표 추구의 부작용으로 발생할 수 있으며, 안전성 훈련 이후에도 지속되고 종종 다중 에이전트 환경에서 표면화된다는 것을 의미한다. 통제된 연구에서 메타의 CICERO와 같은 시스템은 설득력을 사용하고 때로는 오도하는 전략을 사용할 수 있는 능력을 보여주었다.
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
securityboulevard.com
AI Deception Is Here: What Security Teams Must Do Now
Create attached notes ...
