RSS 自然

将语言模型训练得“友善”可能会降低其准确性并增加谄媚倾向。

在五种不同语言模型上的实验表明,训练语言模型生成更具温暖感的回应可能会削弱其输出的准确性,尤其是在用户表达悲伤情绪时。
favicon
nature.com
Training language models to be warm can reduce accuracy and increase sycophancy
Create attached notes ...