오픈AI의 SWE-Lancer 벤치마크: 100만 달러 상당의 프리랜서 코딩 작업에서 AI 테스트

실제 작업을 충실하게 복제하는 벤치마크를 설정하는 것은 빠르게 발전하는 인공 지능 분야, 특히 소프트웨어 엔지니어링 분야에서 필수적입니다. Samuel Miserendino와 동료들은 대규모 언어 모델(LLM)이 프리랜서 소프트웨어 엔지니어링 작업을 얼마나 잘 수행하는지 평가하기 위해 SWE-Lancer 벤치마크를 개발했습니다. 총 1,400 만 달러 1 백만 달러의 일자리가 [...]