Amazon stellt SWE-PolyBench vor, einen mehrsprachigen Benchmark für KI-Coding-Agenten

Folgen

Amazon stellt SWE-PolyBench vor, einen mehrsprachigen Benchmark für KI-Coding-Agenten

Agenten für Codierung, die von großen Sprachmodellen angetrieben werden, haben beeindruckende Fähigkeiten in Aufgaben der Software-Entwicklung gezeigt, aber die Bewertung ihrer Leistung über diverse Programmiersprachen und reale Szenarien hinweg bleibt herausfordernd. Dies führte zu einem jüngsten Anstieg bei der Erstellung von Benchmark-Tests, um die Codierungs-Effektivität dieser Systeme in kontrollierten Umgebungen zu bewerten. Insbesondere SWE-Bench, das die Leistung […]

Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents aws.amazon.com

RSS Hunter • 23. Apr. 2025