В статье обсуждается критическая проблема «агентов-изгоев», когда агент ИИ отклоняется от своего предполагаемого поведения не из-за внешних атак, а из-за внутренних сбоев. Это отклонение может быть вызвано дрейфом модели, ошибками фреймворка, скомпрометированными API или изменениями конфигурации. Для помощника по медицинским данным, такого как Biotrackr, такое поведение агента-изгоя может привести к непомерным затратам, вредному анализу здоровья или нарушениям безопасности из-за случайных утечек информации. Автор подчеркивает важность проектирования для сдерживания, чтобы минимизировать последствия таких сбоев.
Концепция агентов-изгоев отличается от внедрения подсказок, поскольку причина может быть не враждебной. Автор Biotrackr объясняет, почему это важно даже для небольшого проекта, подчеркивая потенциальные последствия, такие как неконтролируемое использование инструментов, ошибочные медицинские советы и раскрытие конфиденциальных сведений о системе. Обнаружение этих отклонений является сложной задачей, поскольку агент может по-прежнему выглядеть функциональным.
Чтобы решить эту проблему, в статье излагаются стратегии профилактики и смягчения последствий, начиная с надежного управления и ведения журналов. Это включает в себя ведение исчерпывающих, неизменяемых и подписанных журналов аудита всех действий агента, вызовов инструментов и взаимодействия между агентами. Biotrackr использует многоуровневое ведение журналов, включая сохранение разговоров на уровне приложения, OpenTelemetry на уровне инфраструктуры и диагностику Cosmos DB. Происхождение на уровне сообщений, распределенная трассировка и привязка идентификаторов имеют решающее значение для судебно-медицинской реконструкции.
Однако текущее ведение журналов в Biotrackr не имеет неизменяемости и подписи для истинного отказа от ответственности, что в идеале предполагает хранение только с добавлением. Для многоагентных систем также важно ведение журналов взаимодействия между агентами. Затем статья переходит к изоляции и границам, подчеркивая, что ущерб должен быть сдержан, когда агент становится изгоем.
Biotrackr реализует изоляцию посредством песочницы контейнеров, сетевых границ через APIM, идентификации с минимальными привилегиями и ограниченного набора инструментов только для чтения. Весь набор возможностей агента состоит из двенадцати операций HTTP GET только для чтения, намеренно исключая инструменты записи, просмотр веб-страниц, выполнение кода, создание агентов и доступ к файловой системе. Это преднамеренное ограничение функциональности агента является ключевой мерой сдерживания.
dev.to
Preventing Rogue AI Agents
