OpenAIのSWE-Lancerベンチマーク：100万ドル相当のフリーランスコーディングタスクでのAIテスト

人工知能が急速に発展している分野において、現実世界のタスクを忠実に再現するベンチマークの確立は不可欠です。特に、ソフトウェアエンジニアリングの分野においてです。サミュエル・ミセレンディーノとその協力者は、SWE-Lancerベンチマークを開発し、大規模言語モデル(LLM)がフリーランスのソフトウェアエンジニアリングタスクをどの程度うまくこなせるかを評価しました。1,400以上のジョブが実行され、合計で100万米ドル相当の仕事が行われました。