AI 사기 행위가 도착했습니다: 보안 팀이 지금 해야 할 일

최근 연구에 따르면, 목표 지향형 AI 에이전트에서 기만이 도구적으로 나타날 수 있다. 이는 기만이 목표 추구의 부작용으로 발생할 수 있으며, 안전성 훈련 이후에도 지속되고 종종 다중 에이전트 환경에서 표면화된다는 것을 의미한다. 통제된 연구에서 메타의 CICERO와 같은 시스템은 설득력을 사용하고 때로는 오도하는 전략을 사용할 수 있는 능력을 보여주었다.