Amazon、AIコーディングエージェントのための多言語ベンチマーク『SWE-PolyBench』を導入

フォロー

Amazon、AIコーディングエージェントのための多言語ベンチマーク『SWE-PolyBench』を導入

大規模言語モデルのパワーによって駆動されるコーディングエージェントは、ソフトウェアエンジニアリングのタスクにおいて印象的な能力を示していますが、異なるプログラミング言語や実世界のシナリオでのパフォーマンス評価がなお挑戦的です。これにより、制御された環境でのシステムのコーディング効果を評価するためのベンチマークの創造が最近急増しています。特に、SWE-Benchは、システムのパフォーマンス […

Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents aws.amazon.com

RSS Hunter • 2025年4月23日