RSS Ars Technica - 全コンテンツ

新しい研究、人気のAIベンチマークを操作したLM Arenaを非難

人気のAI・ヴァイブ・テストは、思っているほど公平ではないかもしれない。
favicon
arstechnica.com
New study accuses LM Arena of gaming its popular AI benchmark
記事の画像: 新しい研究、人気のAIベンチマークを操作したLM Arenaを非難