RSS MITテクノロジーレビュー

トレーニング中にLLMを悪くすることは、長期的にはより良くすることができる

Anthropicの新しい研究によると、お世辞や悪意といった特徴は、大規模言語モデルの特定の活動パターンと関連していることが示唆されています。そして、トレーニング中にそれらのパターンをオンにすることで、逆説的ではありますが、モデルが関連する特徴を学習してしまうのを防ぐことができるのです。大規模言語モデルは最近、悪い行動をとるという評判を得ています。4月には、ChatGPTが突然…
favicon
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
Create attached notes ...