RSS DEV-Gemeinschaft

Deutsche LLM-Benchmark

Die meisten LLM-Benchmarks (Large Language Model) sind auf Englisch, was ihre Leistung in anderen Sprachen nicht genau widerspiegelt. Benchmarks in anderen Sprachen, wie z.B. Deutsch, basieren oft auf öffentlich zugänglichen Datensätzen, die Teil der Trainingsdaten eines LLM sein können, so dass sie für das Benchmarking ungültig sind. Um diese Problematik anzugehen, wurde ein neuer deutschsprachiger LLM-Benchmark namens ML•LLM entwickelt, der aus zwei Teilen besteht: logisch und nicht-logisch. ML•LLM•L erfordert Logik und logisches Denken, um Fragen zu beantworten, während ML•LLM•NL Kenntnisse der deutschen Sprache oder der deutschen Gesetze/Gepflogenheiten in Deutschland erfordert. Die Ergebnisse zeigen, dass Grok von xAI klar führend ist, dicht dahinter liegt DeepSeek und einige OpenAI-Modelle. Überraschenderweise haben viele LLMs Schwierigkeiten mit einfachen Aufgaben im Deutschen, wie z.B. dem Zählen der Anzahl der R's in einem Wort. Die Argumentationsmodelle argumentieren oft auf Englisch, selbst wenn sie mit deutschen Fragen konfrontiert werden, was den Mangel an deutschen Trainingsdaten verdeutlicht. Der Bedarf an nicht-englischen LLM-Benchmarks ist offensichtlich, und es ist unklar, ob andere an ähnlichen Projekten arbeiten.
favicon
dev.to
German LLM Benchmark
Bild zum Artikel: Deutsche LLM-Benchmark