Если вы когда-либо разворачивали большую языковую модель (LLM) в рабочей среде, вы, возможно, знаете о неопределенности, которая с этим связана. Откажется ли модель от законного запроса? Будет ли она слишком согласной, когда не должна быть? Как вообще тестировать поведение, которое проявляется только в конкретных, трудно предсказуемых сценариях?
Ручное "красное командование" и созданные вручную наборы оценок были стандартным подходом, но их очень трудно масштабировать. Они дороги, трудоемки, и, что хуже всего, устаревают в момент публикации, поскольку модели могут быть обучены на них.
dzone.com
Automating Behavioral Evaluations for LLMs: A Practical Guide to Bloom
