トレーニング中にLLMを悪くすることは、長期的にはより良くすることができる

Anthropicの新しい研究によると、お世辞や悪意といった特徴は、大規模言語モデルの特定の活動パターンと関連していることが示唆されています。そして、トレーニング中にそれらのパターンをオンにすることで、逆説的ではありますが、モデルが関連する特徴を学習してしまうのを防ぐことができるのです。大規模言語モデルは最近、悪い行動をとるという評判を得ています。4月には、ChatGPTが突然…