Даррен Мейер, специалист по безопасности в Checkmarx, делится своей работой над темой "Обход защиты AI-агентов с помощью Lies-in-the-Loop". Исследователи Checkmarx Zero представляют "lies-in-the-loop" - новую технику атаки, которая обходит средства контроля безопасности AI, основанные на участии человека, обманывая пользователей, чтобы они одобряли опасные действия, которые кажутся безобидными.
Используя примеры с помощниками по коду AI, такими как Claude Code, исследование показывает, как внедрение подсказок и манипулирование контекстом могут обмануть как агента, так и рецензента-человека, чтобы включить удаленное выполнение кода. Результаты подчеркивают растущий риск по мере того, как AI-агенты становятся все более распространенными в рабочих процессах разработчиков, подчеркивая ограничения человеческого надзора как отдельного средства контроля безопасности.
С исследованием можно ознакомиться здесь:
Обход защиты AI-агентов с помощью Lies-In-The-Loop
thecyberwire.com
The lies that let AI run amok. [Research Saturday]
