RSS AWS DevOps ブログ
フォロー
Amazon、AIコーディングエージェントのための多言語ベンチマーク『SWE-PolyBench』を導入
大規模言語モデルのパワーによって駆動されるコーディングエージェントは、ソフトウェアエンジニアリングのタスクにおいて印象的な能力を示していますが、異なるプログラミング言語や実世界のシナリオでのパフォーマンス評価がなお挑戦的です。これにより、制御された環境でのシステムのコーディング効果を評価するためのベンチマークの創造が最近急増しています。特に、SWE-Benchは、システムのパフォーマンス […