So bewerten Sie mehrsprachige große Sprachmodelle mit Global-MMLU

Evaluierung der sprachensspezifischen LLM-Genauigkeit in Bezug auf das globale Massive Multitask Language Understanding-Benchmark in Python