Amazon stellt SWE-PolyBench vo... Notiz

Amazon stellt SWE-PolyBench vor, einen mehrsprachigen Benchmark für KI-Coding-Agenten

Agenten für Codierung, die von großen Sprachmodellen angetrieben werden, haben beeindruckende Fähigkeiten in Aufgaben der Software-Entwicklung gezeigt, aber die Bewertung ihrer Leistung über diverse Programmiersprachen und reale Szenarien hinweg bleibt herausfordernd. Dies führte zu einem jüngsten Anstieg bei der Erstellung von Benchmark-Tests, um die Codierungs-Effektivität dieser Systeme in kontrollierten Umgebungen zu bewerten. Insbesondere SWE-Bench, das die Leistung […]
CdXz5zHNQW_VvGj9iznCJ.png