LLM(대규모 언어 모델)의 행동 성향 정렬 평가 노트

LLM(대규모 언어 모델)의 행동 성향 정렬 평가

이 연구는 대규모 언어 모델(LLM)의 행동 성향을 인간 행동과 이해하고 일치시키는 데 초점을 맞춥니다. 이 연구는 일상적인 상호 작용과 관련된 현실적인 시나리오에서 LLM을 평가하기 위한 프레임워크를 제시합니다. 이 프레임워크는 심리 설문지를 활용하여 상황 판단 테스트(SJT)로 변환하여 LLM의 반응을 평가합니다. 이 연구는 인간의 선호도와 LLM의 반응 간의 일치성을 분석하며, 인간의 합의가 있는 시나리오와 없는 시나리오에 중점을 둡니다. 결과는 LLM의 행동과 인간의 합의 사이에, 특히 소규모 모델에서 불일치를 드러냅니다. 대규모 모델은 일치도가 향상되었지만, 여전히 인간 의견의 전체 범위를 포착하는 데 한계가 있습니다. 또한, 이 연구는 LLM의 자기 보고된 특성과 SJT에서의 실제 행동 간의 불일치성을 강조합니다. 이러한 발견은 더 나은 사회적 상호 작용을 위해 LLM의 행동 일치성을 개선하는 것이 중요하다는 것을 시사합니다. 이 연구는 LLM 행동에 대한 더 깊은 이해를 위한 초기 단계 역할을 합니다. 이 연구에서 확인된 격차를 해결하기 위한 향후 연구가 필요합니다.
CdXz5zHNQW_thZvecYCZB.png