훈련 중에 LLM을 악하게 만드는 것이 장기적으로는 더 친절하게 만들 수 있습니다.

Anthropic의 새로운 연구에 따르면 아첨이나 악함과 같은 특성은 대규모 언어 모델의 특정 활동 패턴과 연관되어 있으며, 훈련 중에 이러한 패턴을 활성화하면 역설적으로 모델이 관련 특성을 채택하는 것을 방지할 수 있습니다. 대규모 언어 모델은 최근 나쁜 행동으로 악명 높아졌습니다. 4월에 ChatGPT는 갑자기...