AfriMed-QA: Оценка больших языковых моделей для глобального здравоохранения

В этой статье представлен AfriMed-QA, новый эталонный набор данных для оценки больших языковых моделей (LLM) в контексте африканского здравоохранения. Набор данных содержит медицинские вопросы и ответы на английском языке из 16 африканских стран и 60 медицинских школ. AfriMed-QA включает вопросы с несколькими вариантами ответов, вопросы с краткими ответами и запросы потребителей по различным медицинским специальностям. Авторы оценили различные LLM, обнаружив, что большие модели показали лучшие результаты на этом наборе данных. Оценки ответов LLM, проведенные людьми, показали многообещающие результаты, особенно для запросов потребителей. Была создана таблица лидеров для облегчения сравнения моделей и отслеживания прогресса. Команда планирует расширить набор данных, включив в него многоязычные и мультимодальные данные. В исследовании признаются ограничения, в том числе географическое представительство, и подчеркивается необходимость культурно значимых оценок. Исследование подчеркивает важность адаптации LLM для использования в различных условиях здравоохранения. AfriMed-QA направлен на содействие разработке справедливых инструментов искусственного интеллекта для здравоохранения в Африке и за ее пределами. Этот проект получил награду Best Social Impact Paper Award на ACL 2025. Набор данных AfriMed-QA и код оценки находятся в открытом доступе.

AfriMed-QA: Benchmarking large language models for global health research.google

RSS Hunter • 23 сент. 2025 г.