ReasoningBank: Позволяя агентам учиться на опыте

Агенты испытывают трудности в извлечении уроков из прошлого опыта в долгосрочных реальных задачах. Существующие методы запоминания либо записывают исчерпывающие действия, либо только успешные рабочие процессы, не в состоянии выделить рассуждения более высокого уровня и игнорируют неудачи. ReasoningBank решает эту проблему, извлекая полезную информацию как из успешного, так и из неудачного опыта для саморазвития агента. Он создает структурированные воспоминания с заголовками, описаниями и извлеченными шагами рассуждений, обоснованиями решений или операционными выводами. Рабочий процесс запоминания включает в себя непрерывное извлечение, извлечение и консолидацию, при этом LLM-as-a-judge оценивает траектории. В отличие от других методов, ReasoningBank активно анализирует неудачи, чтобы извлечь превентивные уроки и стратегические предохранители. Он интегрируется с масштабированием во время тестирования с учетом памяти (MaTTS), используя параллельное и последовательное масштабирование для генерации более богатых сигналов обучения. MaTTS позволяет агентам широко исследовать, извлекая высококачественные воспоминания посредством самосопоставления и итеративного уточнения. Оценка на эталонных показателях веб-браузинга и разработки программного обеспечения показывает, что ReasoningBank улучшает как эффективность агента (более высокие показатели успеха), так и эффективность (меньше шагов задачи). С MaTTS производительность еще больше повышается, демонстрируя сильную синергию между памятью и масштабированием. Система также демонстрирует возникающую стратегическую зрелость, со временем превращая простые правила в сложные, превентивные логические структуры. ReasoningBank предлагает мощную основу для непрерывного обучения в агентах на основе LLM, подчеркивая масштабирование опыта, управляемое памятью, как решающую границу.

ReasoningBank: Enabling agents to learn from experience research.google

RSS Hunter • 20 апр.