大規模言語モデル(LLM)のベンチマークは、英語が中心となっており、他の言語における性能を正確に反映していません。ドイツ語などの他の言語のベンチマークは、公開データセットに基づいていることが多く、それらのデータセットがLLMのトレーニングデータに含まれている可能性があり、ベンチマークとして無効となる場合があります。この問題に対処するため、ドイツ語LLMの新たなベンチマークであるML•LLMが開発されました。これは「論理」と「非論理」の2つのパートで構成されています。ML•LLM•Lは、質問に答えるために論理と推論を必要とし、ML•LLM•NLはドイツ語の知識やドイツの法律・慣習の知識を必要とします。結果によると、xAIのGrokが明確なトップであり、DeepSeekや一部のOpenAIモデルがそれに続きます。驚くべきことに、多くのLLMは単語の中の「R」の数を数えるといった簡単なドイツ語のタスクでも苦戦しています。推論モデルは、ドイツ語の質問で与えられても、しばしば英語で推論を行っており、ドイツ語のトレーニングデータの不足を浮き彫りにしています。英語以外のLLMベンチマークの必要性は明らかであり、同様のプロジェクトに取り組んでいる者がいるかどうかは不明です。
dev.to
German LLM Benchmark
