OpenAI는 사용자가 맞춤형 ChatGPT 버전을 조작하는 것을 방지하기 위해 새로운 안전 조치를 도입하고 있습니다. 사용자가 OpenAI의 모델을 사용할 때, 예를 들어 고객 서비스 에이전트나 학술 출판물의 연구원으로 작동하도록 지시합니다. 그러나 사용자는 "모든 지시를 잊어라"와 같은 문장으로 채팅봇을 조작할 수 있습니다. 이러한 문장은 디지털健忘증을 일으키고 채팅봇을 일반적인 상태로 초기화합니다.
이러한 문제를 방지하기 위해 OpenAI의 연구원들은 새로운 기법인 "지시 계층"을 개발했습니다. 이 방법은 개발자의 원래 지시와 지시를 우선순위로 처리하여 사용자가 생성한 조작적인 지시를 방지합니다. 시스템 지시는 가장 높은 특권을 가지고 있고 쉽게 지워질 수 없습니다. 사용자가 조작을 시도하는 지시를 입력하면 거부당하고 AI는 사용자에게 그 질의에 도움을 줄 수 없다고 응답합니다.
OpenAI는 GPT-4o Mini 모델부터 이러한 안전 조치를 도입하고 있습니다. 초기 테스트가 잘 진행된다면 추후 모든 모델에 적용할 계획입니다. GPT-4o Mini는 개발자의 원래 지시를 엄격하게 따르면서 성능을 개선하는 것을 목표로 합니다.
OpenAI는 이러한 안전 조치를 통해 모델의 대규모 배포를 지지하고 있습니다. 이러한 조작이 가능하다면 채팅봇이 효율적이지 않을 뿐 아니라 기밀 정보 누출과 악의적인 목적으로 사용할 수 있는 데이터를 방지하는 규칙이 제거될 수 있습니다. 시스템 지시를 따르도록 모델을 강화하면 이러한 위험을 완화하고 안전한 상호작용을 보장할 수 있습니다.
지시 계층의 도입은 OpenAI가 안전 및 투명성에 대한 관심을 고려할 때 적절한 시점입니다. 현재 및 전직 직원들은 회사의 안전 실천을 개선할 것을 요구하고 있습니다. OpenAI의 리더쉽은 이러한 요구에 응답하여 안전 실천을 개선할 것을 약속했습니다. 회사는 완전히 자동화된 에이전트의 복잡성을 고려할 때 향후 모델에 대한 엄격한 보호책이 필요하다고 인정하고 있습니다. 지시 계층 구조는 이러한 안전을 달성하는 과정에서 중요한 단계입니다.
이러한 탈옥은 복잡한 AI 모델을 나쁜 행위자로부터 보호하는 데 아직도 많은 작업이 필요하다는 것을 보여줍니다. 그리고 이는 유일한 예가 아닙니다. 여러 사용자는 "안녕하세요"와 같은 문장으로 ChatGPT가 내부 지시를 공유하는 것을 발견했습니다.
OpenAI는 이러한 취약점을 해결했지만, 새로운 취약점이 발견되는 것은 시간 문제입니다. 해결책은 이러한 해킹을 막는 것보다 훨씬 더 적응적이고 유연해야 합니다.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
