RSS Stories by Pinterest Engineering on Medium
Подписаться
Руководство инженера по улучшению навыков в области ИИ: внедрение процесса тестирования для оптимизации агента…
Инженеры сталкиваются с ненадежностью при использовании AI-агентов, особенно когда им необходимо вызывать пользовательские навыки. Для решения этой проблемы были проведены тесты агентов с использованием конкретного навыка iOS-архитектуры. Целью было количественно оценить надежность вызова навыков и определить методы оптимизации. Основной инструмент тестирования был создан на основе сценария Bash; он организовывал автоматизированное тестирование с использованием подсказок, захватом журналов и проверкой результатов. Были определены и использованы положительные и отрицательные тестовые примеры для оценки способности навыка к вызову. Были реализованы методы разбора журналов для обнаружения вызова навыка на основе шаблонов вывода JSON. Для оценки производительности агентов были рассчитаны ключевые показатели эффективности, такие как коэффициент успешности и точность. Первоначальное тестирование показало, что оба агента имели несовершенные показатели вызова навыков, особенно с неоднозначными подсказками. Было обнаружено несколько оптимизаций, включая улучшение описания навыка, использование агрессивного языка и добавление таблицы навыков. Комбинирование нескольких методов обеспечило улучшенные результаты, особенно для агента Codex. В заключении подчеркивается важность тестирования и улучшения процессов вызова навыков. Разработчики должны использовать высококачественные, тщательные подсказки, чтобы максимизировать эффективность AI-агентов.