Масштабируемая структура для оценки моделей обработки естественного языка в здравоохранении

Большие языковые модели (LLM) могут анализировать сложные медицинские данные для генерации персонализированных ответов. Оценка этих ответов LLM имеет решающее значение для точности и безопасности, но текущая оценка экспертами является дорогостоящей и не масштабируемой. В этой статье представлена новая система оценки LLM в области здравоохранения с использованием адаптивных точных булевых рубрик. Эти рубрики разбивают сложные вопросы на детальные критерии «Да/Нет» для повышения согласованности и эффективности. Система была протестирована в области метаболического здоровья и продемонстрировала значительно более высокую надежность между оценщиками, чем традиционные шкалы Лайкерта. Адаптивные точные булевы рубрики также сократили время оценки более чем на 50%. Этот метод оказался более чувствительным к вариациям в качестве ответов по сравнению со шкалами Лайкерта. Автоматизация процесса фильтрации рубрик с помощью классификатора zero-shot сохранила аналогичные улучшения оценки. Система надежно обнаруживала снижение качества ответов LLM при изменении реальных данных участников. Предложенный подход предлагает масштабируемый и оптимизированный метод оценки LLM в специализированных областях.

A scalable framework for evaluating health language models research.google

RSS Hunter • 25 авг. 2025 г.