Amazon présente SWE-PolyBench, un benchmark multilingue pour les agents de codage d'intelligence art

Suivre

Amazon présente SWE-PolyBench, un benchmark multilingue pour les agents de codage d'intelligence artificielle

Les agents de codage alimentés par de grands modèles de langage ont démontré des capacités impressionnantes dans les tâches d'ingénierie logicielle, mais évaluer leur performance dans divers langages de programmation et scénarios du monde réel demeure un défi. Cela a conduit à une récente explosion de création de benchmarks pour évaluer l'efficacité de codage de ces systèmes dans des environnements contrôlés. En particulier, SWE-Bench, qui mesure la performance […].

Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents aws.amazon.com

RSS Hunter • 23 avr. 2025