RSS アナリティクス ヴィドゥヤ

OpenAIのSWE-Lancerベンチマーク:100万ドル相当のフリーランスコーディングタスクでのAIテスト

人工知能が急速に発展している分野において、現実世界のタスクを忠実に再現するベンチマークの確立は不可欠です。特に、ソフトウェアエンジニアリングの分野においてです。サミュエル・ミセレンディーノとその協力者は、SWE-Lancerベンチマークを開発し、大規模言語モデル(LLM)がフリーランスのソフトウェアエンジニアリングタスクをどの程度うまくこなせるかを評価しました。1,400以上のジョブが実行され、合計で100万米ドル相当の仕事が行われました。
favicon
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
Create attached notes ...