Skip to content
TheNote.app
Download_on_the_App_Store_Badge_US-UK_RGB_blk_4SVG_092917
RSS 自然
将语言模型训练得“友善”可能会降低其准确性并增加谄媚倾向。
在五种不同语言模型上的实验表明,训练语言模型生成更具温暖感的回应可能会削弱其输出的准确性,尤其是在用户表达悲伤情绪时。
nature.com
Training language models to be warm can reduce accuracy and increase sycophancy
ATTACHED
-
-
Create attached notes ...