RSS AWS DevOps Blog
Folgen
Amazon stellt SWE-PolyBench vor, einen mehrsprachigen Benchmark für KI-Coding-Agenten
Agenten für Codierung, die von großen Sprachmodellen angetrieben werden, haben beeindruckende Fähigkeiten in Aufgaben der Software-Entwicklung gezeigt, aber die Bewertung ihrer Leistung über diverse Programmiersprachen und reale Szenarien hinweg bleibt herausfordernd. Dies führte zu einem jüngsten Anstieg bei der Erstellung von Benchmark-Tests, um die Codierungs-Effektivität dieser Systeme in kontrollierten Umgebungen zu bewerten. Insbesondere SWE-Bench, das die Leistung […]