RSS Бульвар безопасности

NDSS 2025 – TrajDeleter: Обеспечение забывания траекторий в агентах офлайн-обучения с подкреплением

Статья "TrajDeleter: Обеспечение забывания траекторий в офлайн агентах обучения с подкреплением" была представлена на симпозиуме NDSS. Авторами статьи являются Хен Гонг, Кечен Ли, Цзинь Яо и Тяньхао Ван из Университета Вирджинии и Китайской академии наук. В статье обсуждается концепция офлайн обучения с подкреплением, которое обучает агента с использованием предварительно собранных наборов данных, и необходимость устранения влияния определенных траекторий из набора данных для обучения и обученных агентов. Авторы предлагают TRAJDELETER, практический подход к разучиванию траекторий для офлайн RL агентов, который направляет агента к демонстрации ухудшающейся производительности при столкновении с состояниями, связанными с разучиваемыми траекториями. TRAJDELETER гарантирует, что агент сохраняет свой первоначальный уровень производительности при столкновении с другими оставшимися траекториями. Авторы также представляют TRAJAUDITOR, метод оценки того, успешно ли TRAJDELETER устраняет влияние определенных траекторий из офлайн RL агента. Эксперименты, проведенные на шести офлайн RL алгоритмах и трех задачах, демонстрируют эффективность TRAJDELETER, которому требуется всего около 1,5% времени, необходимого для переобучения с нуля. TRAJDELETER эффективно разучивает в среднем 94,8% целевых траекторий и по-прежнему хорошо работает при взаимодействии с реальной средой после разучивания. Симпозиум по безопасности сетей и распределенных систем (NDSS) — это платформа, которая способствует обмену информацией между исследователями и практиками в области безопасности сетей и распределенных систем. Симпозиум NDSS направлен на то, чтобы поощрять и давать возможность интернет-сообществу применять, развертывать и продвигать состояние доступных технологий безопасности, а содержание статьи доступно на YouTube-канале организации.
favicon
securityboulevard.com
NDSS 2025 – TrajDeleter: Enabling Trajectory Forgetting In Offline Reinforcement Learning Agents