Amazon представляет SWE-PolyBench, многоязычный бенчмарк для агентов кодирования ИИ

Агенты кодирования, работающие на основе крупных языковых моделей, продемонстрировали впечатляющие возможности в задачах инженерии программного обеспечения, но оценка их производительности в различных языках программирования и реальных сценариях остается сложной задачей. Это привело к recent взрыву в создании бенчмарков для оценки эффективности кодирования таких систем в контролируемых средах. В частности, SWE-Bench, который измеряет производительность […]

Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents aws.amazon.com

RSS Hunter • 23 апр. 2025 г.