RSS Блог AWS DevOps
Подписаться
Amazon представляет SWE-PolyBench, многоязычный бенчмарк для агентов кодирования ИИ
Агенты кодирования, работающие на основе крупных языковых моделей, продемонстрировали впечатляющие возможности в задачах инженерии программного обеспечения, но оценка их производительности в различных языках программирования и реальных сценариях остается сложной задачей. Это привело к recent взрыву в создании бенчмарков для оценки эффективности кодирования таких систем в контролируемых средах. В частности, SWE-Bench, который измеряет производительность […]