실제 작업을 충실하게 복제하는 벤치마크를 설정하는 것은 빠르게 발전하는 인공 지능 분야, 특히 소프트웨어 엔지니어링 분야에서 필수적입니다. Samuel Miserendino와 동료들은 대규모 언어 모델(LLM)이 프리랜서 소프트웨어 엔지니어링 작업을 얼마나 잘 수행하는지 평가하기 위해 SWE-Lancer 벤치마크를 개발했습니다. 총 1,400 만 달러 1 백만 달러의 일자리가 [...]
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
Create attached notes ...
