LLM（大規模言語モデル）における行動傾向の整合性評価

フォロー

LLM（大規模言語モデル）における行動傾向の整合性評価

この研究は、大規模言語モデル（LLM）の行動傾向を人間の行動と理解し、整合させることに焦点を当てています。この研究では、LLMを日常的なやり取りに関連する現実的なシナリオで評価するためのフレームワークを導入しています。このフレームワークは、心理学的な質問票を利用し、それを状況判断テスト（SJT）に適用して、LLMがどのように応答するかを評価します。この研究では、LLMの応答と人間の嗜好との整合性を分析し、人間の合意があるシナリオとないシナリオに焦点を当てています。結果は、LLMの行動と人間の合意との間に、特に小型モデルにおいて、食い違いがあることを明らかにしています。大型モデルは整合性が向上していますが、人間の意見の全範囲を捉えることにはまだ限界があります。この研究ではまた、LLMの自己申告された特性と、SJTにおける実際の行動との間の矛盾も浮き彫りにしています。これらの発見は、より良い社会的な相互作用のために、LLMにおける行動の整合性を改善することの重要性を示唆しています。この研究は、LLMの行動をより深く理解するためへの初期段階として役立ちます。この研究で特定されたギャップに対処するためには、今後の研究が必要です。

Evaluating alignment of behavioral dispositions in LLMs research.google

RSS Hunter • 4月2日