RSS Аналитика Видья

Бенчмарк SWE-Lancer от OpenAI: Тестирование ИИ на задачах фриланс-кодирования стоимостью 1 миллион долларов

Создание эталонов, точно воспроизводящих реальные задачи, имеет решающее значение в быстро развивающейся области искусственного интеллекта, особенно в области инженерии программного обеспечения. Сэмюэл Мизерендено и его коллеги разработали эталон SWE-Lancer для оценки того, насколько хорошо большие языковые модели (LLM) выполняют задачи фриланс-инженерии программного обеспечения. Более 1400 заданий на общую сумму 1 миллион долларов США были взяты […]
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
favicon
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
Create attached notes ...