RSS-Analytik Vidhya

OpenAIs SWE-Lancer-Benchmark: Testen von KI anhand von 1 Million US-Dollar wertvoller Freelance-Coding-Aufgaben

Die Etablierung von Benchmark-Werten, die reale Aufgaben getreu nachbilden, ist in dem rasant entwickelnden Bereich der künstlichen Intelligenz, insbesondere im Bereich der Software-Entwicklung, von entscheidender Bedeutung. Samuel Miserendino und seine Mitarbeiter entwickelten den SWE-Lancer-Benchmark, um zu bewerten, wie gut große Sprachmodelle (LLMs) Aufgaben im Bereich der freiberuflichen Software-Entwicklung ausführen. Über 1.400 Jobs mit einem Gesamtwert von 1 Million US-Dollar wurden übernommen [...]
favicon
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
Create attached notes ...