대부분의 대규모 언어 모델(LLM) 벤치마크는 영어로 구성되어 있기 때문에 다른 언어에서의 성능을 정확하게 반영하지 못한다. 독일어와 같은 다른 언어의 벤치마크는 공개적으로 사용 가능한 데이터 세트에 기반을 두고 있으며, 이러한 데이터 세트는 LLM의 훈련 데이터의 일부일 수 있기 때문에 벤치마크에 적합하지 않다. 이러한 문제를 해결하기 위해 새로운 독일어 LLM 벤치마크인 ML•LLM이 개발되었으며, 논리(logic)와 논리적이지 않은(non-logic) 두 부분으로 구성되어 있다. ML•LLM•L은 질문에 답하기 위해 논리와 추론이 필요하며, ML•LLM•NL은 독일어 또는 독일의 법률/관습에 대한 지식이 필요하다. 결과는 xAI의 Grok가 명백한 선두주자이며, DeepSeek와 일부 OpenAI 모델이 그 뒤를 따르고 있다. 놀랍게도 많은 LLM은 독일어의 단순한 작업, 예를 들어 단어에 있는 R의 개수를 세는 것과 같은 작업에 어려움을 겪는다. 추론 모델은 독일어 질문을 받았음에도 불구하고 영어로 추론을 수행하는 경우가 많아 독일어 훈련 데이터의 부족을 강조한다. 비영어 LLM 벤치마크의 필요성이 명백하며, 다른 사람들이 유사한 프로젝트에 대해 작업하고 있는지 여부는 불분명하다.
dev.to
German LLM Benchmark
