Flux RSS du blog AWS DevOps
Suivre
Amazon présente SWE-PolyBench, un benchmark multilingue pour les agents de codage d'intelligence artificielle
Les agents de codage alimentés par de grands modèles de langage ont démontré des capacités impressionnantes dans les tâches d'ingénierie logicielle, mais évaluer leur performance dans divers langages de programmation et scénarios du monde réel demeure un défi. Cela a conduit à une récente explosion de création de benchmarks pour évaluer l'efficacité de codage de ces systèmes dans des environnements contrôlés. En particulier, SWE-Bench, qui mesure la performance […].