RSS Блог Google DeepMind

Оценка мультимодальных интерактивных агентов

В этой статье мы оцениваем достоинства существующих метрик оценки и представляем новый подход к оценке, называемый Стандартизированным Тестовым Комплектом (STS). STS использует поведенческие сценарии, извлеченные из реальных данных взаимодействия между людьми.
favicon
deepmind.google
Evaluating Multimodal Interactive Agents
Create attached notes ...