Anthropic의 새로운 연구에 따르면 아첨이나 악함과 같은 특성은 대규모 언어 모델의 특정 활동 패턴과 연관되어 있으며, 훈련 중에 이러한 패턴을 활성화하면 역설적으로 모델이 관련 특성을 채택하는 것을 방지할 수 있습니다. 대규모 언어 모델은 최근 나쁜 행동으로 악명 높아졌습니다. 4월에 ChatGPT는 갑자기...
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
Create attached notes ...
