만약 여러분이 대규모 언어 모델(LLM)을 실제 운영 환경에 배포해 본 적이 있다면, 그 과정에서 따르는 불확실성을 잘 아실 겁니다. 모델이 정당한 요청을 거부할까요? 아니면, 그래선 안 될 때 너무 쉽게 동의할까요? 예측하기 어려운 특정 시나리오에서만 나타나는 행동을 어떻게 테스트해야 할까요?
수동적인 레드팀 활동과 직접 제작한 평가 도구들이 표준적인 접근 방식이었지만, 이는 확장하기가 매우 어려울 수 있습니다. 비용이 많이 들고, 시간이 오래 걸리며, 최악의 경우, 모델이 해당 도구들을 학습할 수 있기 때문에 발표되는 순간부터 쓸모없게 됩니다.
dzone.com
Automating Behavioral Evaluations for LLMs: A Practical Guide to Bloom
