AfriMed-QA : Évaluation comparative des grands modèles de langage pour la santé mondiale

Suivre

AfriMed-QA : Évaluation comparative des grands modèles de langage pour la santé mondiale

Ce document présente AfriMed-QA, un nouvel ensemble de données de référence pour l'évaluation des grands modèles linguistiques (LLM) dans le contexte des soins de santé en Afrique. L'ensemble de données compile des questions et réponses médicales en anglais provenant de 16 pays africains et de 60 écoles de médecine. AfriMed-QA comprend des questions à choix multiples, des questions à réponse courte et des requêtes de consommateurs dans diverses spécialités médicales. Les auteurs ont évalué divers LLM, constatant que les modèles plus grands obtenaient de meilleurs résultats sur cet ensemble de données. Les évaluations humaines des réponses des LLM ont montré des résultats prometteurs, en particulier pour les requêtes des consommateurs. Un classement a été créé pour faciliter la comparaison des modèles et suivre les progrès. L'équipe prévoit d'étendre l'ensemble de données pour inclure des données multilingues et multimodales. L'étude reconnaît les limites, notamment la représentation géographique, et souligne la nécessité d'évaluations culturellement pertinentes. La recherche souligne l'importance d'adapter les LLM pour une utilisation dans divers contextes de soins de santé. AfriMed-QA vise à favoriser le développement d'outils d'IA équitables pour les soins de santé en Afrique et au-delà. Ce projet a reçu le prix du meilleur article à impact social à l'ACL 2025. L'ensemble de données AfriMed-QA et le code d'évaluation sont accessibles au public.

AfriMed-QA: Benchmarking large language models for global health research.google

RSS Hunter • 23 sept. 2025