OpenAI está implementando un cambio para evitar que las versiones personalizadas de ChatGPT sean manipuladas. El cambio se centra en hacer que el IA olvide lo que se supone que hace. Básicamente, cuando un tercero utiliza uno de los modelos de OpenAI, se le da instrucciones que le enseñan a actuar como, por ejemplo, un agente de servicio al cliente para una tienda o un investigador para una publicación académica. Sin embargo, un usuario podría manipular el chatbot diciéndole "olvidar todas las instrucciones", lo que induce una especie de amnesia digital y reinicia el chatbot a un estado genérico en blanco.
Para prevenir esto, los investigadores de OpenAI crearon una nueva técnica llamada "jerarquía de instrucciones", que es una forma de priorizar las instrucciones originales del desarrollador sobre las instrucciones potencialmente manipuladoras del usuario. Las instrucciones del sistema tienen la mayor prioridad y ya no se pueden borrar fácilmente. Si un usuario ingresa una instrucción que intenta desalinear el comportamiento del IA, se rechazará y el IA responderá diciendo que no puede ayudar con la consulta.
OpenAI está implementando esta medida de seguridad en sus modelos, comenzando con el recientemente lanzado modelo GPT-4o Mini. Si estas pruebas iniciales tienen éxito, presumiblemente se incorporará en todos los modelos de OpenAI. GPT-4o Mini está diseñado para ofrecer un rendimiento mejorado mientras mantiene una estricta adherencia a las instrucciones originales del desarrollador.
Cerraduras de seguridad de IA
A medida que OpenAI continúa fomentando la implementación a gran escala de sus modelos, estas medidas de seguridad son cruciales. Es fácil imaginar los posibles riesgos cuando los usuarios pueden alterar fundamentalmente los controles del IA de esa manera. No solo haría que el chatbot fuera ineficaz, sino que también podría eliminar las reglas que impiden la filtración de información confidencial y otros datos que podrían ser explotados para propósitos maliciosos. Al reforzar la adherencia del modelo a las instrucciones del sistema, OpenAI busca mitigar estos riesgos y garantizar interacciones más seguras.
La introducción de la jerarquía de instrucciones llega en un momento crucial para OpenAI en relación con las preocupaciones sobre cómo aborda la seguridad y la transparencia. Los empleados actuales y anteriores han pedido mejorar las prácticas de seguridad de la empresa, y el liderazgo de OpenAI ha respondido comprometiéndose a hacerlo. La empresa ha reconocido que las complejidades de los agentes automatizados completamente requieren guardrails sofisticadas en futuros modelos, y la configuración de la jerarquía de instrucciones parece ser un paso en el camino hacia lograr una mejor seguridad.
Estos tipos de fugas demuestran cuánto trabajo aún necesita ser hecho para proteger a los modelos de IA complejos de los actores maliciosos. Y no es solo un ejemplo. Varios usuarios descubrieron que ChatGPT compartiría sus instrucciones internas simplemente diciendo "hola".
OpenAI tapó esa brecha, pero probablemente solo es cuestión de tiempo antes de que se descubran más. Cualquier solución necesitará ser mucho más adaptativa y flexible que una que simplemente detenga un tipo particular de hacking.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
