OpenAI는 자사의 LLM(대규모 언어 모델)이 잘못된 행동을 인정하도록 훈련시켰습니다.

OpenAI는 거대 언어 모델 내부에서 작동하는 복잡한 과정을 드러내는 또 다른 새로운 방법을 테스트하고 있습니다. 이 회사 연구원들은 LLM이 '자백'이라고 부르는 것을 생성하도록 만들 수 있습니다. 이 자백에서 모델은 작업을 어떻게 수행했는지 설명하고 (대부분의 경우) 잘못된 행동을 인정합니다. 알아내는 것은...