RSS 애널리틱스 비디야

오픈AI의 SWE-Lancer 벤치마크: 100만 달러 상당의 프리랜서 코딩 작업에서 AI 테스트

실제 작업을 충실하게 복제하는 벤치마크를 설정하는 것은 빠르게 발전하는 인공 지능 분야, 특히 소프트웨어 엔지니어링 분야에서 필수적입니다. Samuel Miserendino와 동료들은 대규모 언어 모델(LLM)이 프리랜서 소프트웨어 엔지니어링 작업을 얼마나 잘 수행하는지 평가하기 위해 SWE-Lancer 벤치마크를 개발했습니다. 총 1,400 만 달러 1 백만 달러의 일자리가 [...]
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
Create attached notes ...