아마존, AI 코딩 에이전트를 위한 다국어 벤치마크 S... 노트

아마존, AI 코딩 에이전트를 위한 다국어 벤치마크 SWE-PolyBench 출시

대규모 언어 모델에 의해 구동되는 코딩 에이전트는 소프트웨어 엔지니어링 작업에서 인상적인 기능을 보여왔지만, 다양한 프로그래밍 언어와 실제 시나리오에서 그들의 성능을 평가하는 것은 여전히 도전적이다. 이러한 문제로 인해 제어 환경에서 said 시스템의 코딩 효율성을 평가하는 벤치마크 생성이 최근 폭발적으로 증가하고 있다. 특히 SWE-Bench는 said 시스템의 성능을 측정하는 데 사용된다 […]
CdXz5zHNQW_VvGj9iznCJ.png