Бенчмарк SWE-Lancer от OpenAI: Тестирование ИИ на задачах фриланс-кодирования стоимостью 1 миллион долларов

Создание эталонов, точно воспроизводящих реальные задачи, имеет решающее значение в быстро развивающейся области искусственного интеллекта, особенно в области инженерии программного обеспечения. Сэмюэл Мизерендено и его коллеги разработали эталон SWE-Lancer для оценки того, насколько хорошо большие языковые модели (LLM) выполняют задачи фриланс-инженерии программного обеспечения. Более 1400 заданий на общую сумму 1 миллион долларов США были взяты […]

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

t.me

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru

analyticsvidhya.com

OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks

RSS Hunter

2025-02-19

Create attached notes ...