В этой статье мы оцениваем достоинства существующих метрик оценки и представляем новый подход к оценке, называемый Стандартизированным Тестовым Комплектом (STS). STS использует поведенческие сценарии, извлеченные из реальных данных взаимодействия между людьми.
deepmind.google
Evaluating Multimodal Interactive Agents
