Сообщество RSS DEV

Немецкий бенчмарк LLM

"Большинство бенчмарков крупных языковых моделей (LLM) представлены на английском языке, что не точно отражает их производительность на других языках. Бенчмарки на других языках, таких как немецком, часто основаны на публично доступных наборах данных, которые могут быть частью обучающих данных LLM, что делает их недействительными для бенчмаркинга. Чтобы решить эту проблему, был разработан новый немецкоязычный бенчмарк LLM под названием ML•LLM, состоящий из двух частей: логической и не логической. ML•LLM•L требует логических рассуждений для ответа на вопросы, а ML•LLM•NL требует знаний немецкого языка или законов/обычаев в Германии. Результаты показывают, что Grok от xAI является явным лидером, а DeepSeek и некоторые модели OpenAI находятся недалеко позади. Удивительно, но многие LLM испытывают трудности с простыми задачами на немецком языке, такими как подсчет количества букв "R" в слове. Модели рассуждений часто проводят свои рассуждения на английском языке, даже когда им предлагаются немецкие вопросы, подчеркивая отсутствие немецких обучающих данных. Необходимость в неанглийских бенчмарках LLM очевидна, и неясно, работают ли другие над подобными проектами."
favicon
dev.to
German LLM Benchmark
Изображение к статье: Немецкий бенчмарк LLM