Я потратил свои деньги на сравнительный анализ LLM на голландских экзаменах, чтобы вам не пришлось

Инженер по машинному обучению и докторант Университета Амстердама провел эксперимент по оценке производительности больших языковых моделей на голландских языковых задачах. Исследователь собрал более 12 000 PDF-файлов голландских государственных экзаменов, извлек вопросы и ответы и использовал эти данные для тестирования производительности нескольких моделей, включая o1-preview, o1-mini, GPT-4o, GPT-4o-mini и Claude-3. Результаты показали, что o1-mini превзошел более дорогие модели, такие как o1-preview и GPT-4o, набрав 66,75% возможных баллов по сравнению с 61,91% и 62,32% соответственно. Исследователь обнаружил, что более высокая стоимость некоторых моделей не обязательно переводится в лучшую производительность, и что o1-mini предлагает лучшую стоимость для голландских языковых задач. Эксперимент также подчеркнул трудности оценки языковых моделей, включая высокую стоимость API-комиссий и необходимость более обширного тестирования. Исследователь заинтересован в сотрудничестве с голландскими учреждениями для расширения масштабов оценки и получения более полных выводов о производительности моделей. Результаты эксперимента имеют последствия для компаний, разрабатывающих продукты для голландскоязычных пользователей, и предполагают, что o1-mini может быть более экономически выгодным вариантом для голландских языковых задач. Кроме того, исследователь обнаружил, что модели работают лучше на более простых вопросах уровня VMBO и испытывают больше трудностей с более сложными вопросами уровня VWO. В целом, эксперимент подчеркивает важность оценки языковых моделей на конкретных задачах и языках, чтобы обеспечить их хорошую работу в реальных приложениях.

towardsdatascience.com

I Spent My Money on Benchmarking LLMs on Dutch Exams So You Don’t Have To

RSS Hunter

2024-09-25