ReasoningBank: 에이전트가 경험으로부터 학습... 노트

ReasoningBank: 에이전트가 경험으로부터 학습할 수 있도록 지원

에이전트는 장기간 실행되는 실제 작업에서 과거 경험으로부터 배우는 데 어려움을 겪습니다. 기존의 메모리 방법은 모든 행동을 기록하거나 성공적인 워크플로우만 기록하여 고차원적인 추론을 추출하지 못하고 실패를 간과합니다. ReasoningBank는 에이전트의 자가 진화를 위해 성공 및 실패 경험 모두에서 유용한 통찰력을 추출하여 이러한 문제를 해결합니다. 제목, 설명, 추출된 추론 단계, 의사 결정 근거 또는 운영 통찰력이 포함된 구조화된 메모리를 생성합니다. 메모리 워크플로우는 지속적인 검색, 추출 및 통합을 포함하며, LLM(대규모 언어 모델)이 판정자 역할을 하여 궤적을 평가합니다. 다른 방법과 달리 ReasoningBank는 실패를 적극적으로 분석하여 예방적 교훈과 전략적 안전 장치를 학습합니다. 또한 메모리 인식 테스트 시간 스케일링(MaTTS)과 통합되어 병렬 및 순차적 스케일링을 사용하여 더 풍부한 학습 신호를 생성합니다. MaTTS를 통해 에이전트는 광범위하게 탐색하고 자체 대비 및 반복적 개선을 통해 고품질 메모리를 추출할 수 있습니다. 웹 브라우징 및 소프트웨어 엔지니어링 벤치마크에 대한 평가 결과 ReasoningBank는 에이전트의 효과성(더 높은 성공률)과 효율성(더 적은 작업 단계)을 모두 향상시키는 것으로 나타났습니다. MaTTS를 사용하면 성능이 더욱 향상되어 메모리와 스케일링 간의 강력한 시너지 효과를 보여줍니다. 또한 이 시스템은 시간이 지남에 따라 단순한 규칙을 복잡하고 예방적인 논리 구조로 발전시키는 창발적인 전략적 성숙도를 나타냅니다. ReasoningBank는 LLM 기반 에이전트의 지속적인 학습을 위한 강력한 프레임워크를 제공하며, 메모리 기반 경험 스케일링이 중요한 최전선임을 강조합니다.
CdXz5zHNQW_SlEGinFE7U.png