ChatGPT больше не позволяет вам давать ему инструкции с амнезией.

OpenAI вносит изменения, чтобы предотвратить вмешательство в настройки пользовательских версий ChatGPT, заставляя AI забывать о своих задачах. Когда третья сторона использует одну из моделей OpenAI, она дает ей инструкции, которые учат AI работать, например, как агент по обслуживанию клиентов в магазине или как исследователь для академического издания. Однако пользователь мог вмешаться в чат-бот, сказав ему "забыть все инструкции", и это приведет к цифровой амнезии и возврату чат-бота к общему виду. Чтобы предотвратить это, исследователи OpenAI разработали новый метод под названием "иерархия инструкций", который позволяет отдавать приоритет исходным инструкциям разработчика над любыми манипулятивными пользовательскими инструкциями. Системные инструкции теперь имеют наивысший приоритет и не могут быть столь легко удалены. Если пользователь вводит инструкцию, которая пытается нарушить поведение AI, она будет отклонена, и AI ответит, что не может помочь с запросом. OpenAI внедряет эту меру безопасности в свои модели, начиная с недавно выпущенной модели GPT-4o Mini. Однако если эти первые тесты пройдут успешно, она, вероятно, будет внедрена во все модели OpenAI. GPT-4o Mini спроектирована для обеспечения повышенной производительности при строгом соблюдении исходных инструкций разработчика. Блокировки безопасности AI Поскольку OpenAI продолжает поощрять массовое развертывание своих моделей, такие меры безопасности становятся жизненно важными. Легко представить себе потенциальные риски, когда пользователи могут радикально изменять управление AI таким образом. Это не только сделает чат-бот неэффективным, но и может удалить правила, препятствующие утечке конфиденциальной информации и других данных, которые могут быть использованы для злонамеренных целей. Укрепляя приверженность модели системным инструкциям, OpenAI стремится снизить эти риски и обеспечить безопасные взаимодействия. Внедрение иерархии инструкций происходит в важный момент для OpenAI в связи с озабоченностью по поводу того, как компания подходит к безопасности и прозрачности. Текущие и бывшие сотрудники призывают улучшать практики безопасности компании, и лидеры OpenAI пообещали это сделать. Компания признала, что сложности полностью автоматизированных агентов требуют сложных ограничений в будущих моделях, и настройка иерархии инструкций кажется шагом на пути к достижению лучшей безопасности. Такие jailbreaks демонстрируют, сколько работы еще предстоит сделать, чтобы защитить сложные модели AI от злоумышленников. И это далеко не единственный пример. Несколько пользователей обнаружили, что ChatGPT будет делиться своими внутренними инструкциями, просто сказав "привет". OpenAI закрыла эту брешь, но, вероятно, только вопрос времени, когда будут обнаружены другие. Любое решение должно быть намного более адаптивным и гибким, чем то, которое просто останавливает определенный вид взлома.

techradar.com

ChatGPT won't let you give it instruction amnesia anymore

RSS Hunter

2024-07-28

Create attached notes ...