Могут ли агенты ИИ выполнять ваши ежедневные задачи в приложениях?

Бенчмаркинг кодирующих агентов для персональных приложений требует богатой среды выполнения, сложных задач и надежной системы оценки. Существующие бенчмарки не могут удовлетворить этим критериям. AppWorld вводит виртуальный мир, где кодирующие агенты могут взаимодействовать с разными приложениями через API от лица пользователей. Бенчмарк состоит из 750 повседневных задач, требующих богатого и интерактивного кодирования. Надежная система оценки оценивает работу агента по изменениям состояния базы данных, обеспечивая выполнение задачи и отсутствие побочного ущерба. Несмотря на возможности LLM, GPT-4o выполняет только 30% задач бенчмарка правильно, подчеркивая сложность бенчмарка. Оценки снижаются с увеличением сложности задач. AppWorld создает основу для будущих исследований в автоматизации цифровых задач, включая расширение бенчмарка до работы в команде, наложение его на физический мир и изучение потенциальных рисков работы цифровых помощников самостоятельно. AppWorld легко использовать и поощряет исследователей изучать его возможности.

towardsdatascience.com

Can AI Agents Do Your Day-to-Day Tasks on Apps?

RSS Hunter

2024-09-10

Create attached notes ...