OpenAI apporte un changement pour empêcher les utilisateurs de modifier les versions personnalisées de ChatGPT en faisant oublier à l'IA ce qu'elle est censée faire. Lorsqu'un tiers utilise l'un des modèles d'OpenAI, il lui donne des instructions qui l'enseignent à agir comme, par exemple, un agent de service client pour un magasin ou un chercheur pour une publication académique. Cependant, un utilisateur pourrait modifier le chatbot en lui disant de "oublier toutes les instructions", ce qui provoquerait une sorte d'amnésie digitale et réinitialiserait le chatbot à un état générique vierge.
Pour prévenir cela, les chercheurs d'OpenAI ont créé une nouvelle technique appelée "hiérarchie des instructions", qui est un moyen de privilégier les prompts et les instructions originaux du développeur par rapport à tout prompt utilisateur potentiellement manipulateur. Les instructions du système ont désormais la plus haute priorité et ne peuvent plus être effacées aussi facilement. Si un utilisateur entre un prompt qui tente de modifier le comportement de l'IA, il sera rejeté, et l'IA répondra en disant qu'elle ne peut pas aider avec la requête.
OpenAI déploie cette mesure de sécurité dans ses modèles, en commençant par le modèle GPT-4o Mini récemment publié. Cependant, si ces premiers tests se passent bien, il est probable qu'elle soit intégrée à tous les modèles d'OpenAI. GPT-4o Mini est conçu pour offrir des performances améliorées tout en maintenant une stricte adhérence aux instructions originales du développeur.
Verrous de sécurité IA
Alors qu'OpenAI continue d'encourager le déploiement à grande échelle de ses modèles, ce genre de mesures de sécurité est crucial. Il est tout à fait facile d'imaginer les risques potentiels lorsque les utilisateurs peuvent modifier fondamentalement les contrôles de l'IA de cette manière.
Non seulement cela rendrait le chatbot inefficace, mais cela pourrait également supprimer les règles empêchant la fuite d'informations sensibles et d'autres données qui pourraient être exploitées à des fins malveillantes. En renforçant l'adhérence du modèle aux instructions du système, OpenAI vise à atténuer ces risques et à garantir des interactions plus sécurisées.
L'introduction de la hiérarchie des instructions intervient à un moment crucial pour OpenAI concernant les inquiétudes quant à la manière dont elle aborde la sécurité et la transparence. Des employés actuels et anciens ont appelé à améliorer les pratiques de sécurité de l'entreprise, et la direction d'OpenAI a répondu en promettant de le faire. L'entreprise a reconnu que les complexités des agents automatisés complets nécessitaient des garde-fous sophistiqués dans les modèles futurs, et la mise en place de la hiérarchie des instructions semble être un pas vers l'obtention d'une meilleure sécurité.
Ces types de jailbreaks montrent combien de travail reste à être fait pour protéger les modèles d'IA complexes contre les acteurs malveillants. Et ce n'est probablement que l'exemple le plus évident. Plusieurs utilisateurs ont découvert que ChatGPT partagerait ses instructions internes en disant simplement "bonjour".
OpenAI a comblé cette brèche, mais il est probable que d'autres seront découvertes. Toute solution devra être beaucoup plus adaptative et flexible que celle qui simplement arrête un type particulier de hacking.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
