Die Etablierung von Benchmark-Werten, die reale Aufgaben getreu nachbilden, ist in dem rasant entwickelnden Bereich der künstlichen Intelligenz, insbesondere im Bereich der Software-Entwicklung, von entscheidender Bedeutung. Samuel Miserendino und seine Mitarbeiter entwickelten den SWE-Lancer-Benchmark, um zu bewerten, wie gut große Sprachmodelle (LLMs) Aufgaben im Bereich der freiberuflichen Software-Entwicklung ausführen. Über 1.400 Jobs mit einem Gesamtwert von 1 Million US-Dollar wurden übernommen [...]
analyticsvidhya.com
OpenAI’s SWE-Lancer Benchmark: Testing AI on $1 Million Worth of Freelance Coding Tasks
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
Create attached notes ...
