Amazon представляет SWE-PolyBe... Заметка
RSS Блог AWS DevOps

Amazon представляет SWE-PolyBench, многоязычный бенчмарк для агентов кодирования ИИ

Агенты кодирования, работающие на основе крупных языковых моделей, продемонстрировали впечатляющие возможности в задачах инженерии программного обеспечения, но оценка их производительности в различных языках программирования и реальных сценариях остается сложной задачей. Это привело к recent взрыву в создании бенчмарков для оценки эффективности кодирования таких систем в контролируемых средах. В частности, SWE-Bench, который измеряет производительность […]
CdXz5zHNQW_VvGj9iznCJ.png