Оценка релевантности на базе L... Заметка

Оценка релевантности на базе LLM для поиска в Pinterest

Pinterest Search разработал метод повышения оценки релевантности поиска с использованием больших языковых моделей (LLM). Традиционное измерение релевантности опиралось на дорогостоящие человеческие аннотации, что ограничивало масштаб и чувствительность A/B-тестов. Для решения этой проблемы они дообучили LLM с открытым исходным кодом на данных, размеченных людьми, для прогнозирования релевантности пинов запросам. Этот подход на основе LLM рассматривает прогнозирование релевантности как задачу многоклассовой классификации, используя такие признаки, как заголовки пинов, описания и подписи к изображениям.Они приняли стратифицированный дизайн выборки запросов, который значительно снижает минимальный обнаруживаемый эффект (MDE) на порядок. Эта новая методология позволяет измерять гетерогенные эффекты воздействия и повышает эффективность оценки. Процесс разметки LLM значительно снижает затраты и время, позволяя использовать большие и более репрезентативные размеры выборки.После дообучения модель релевантности на основе LLM генерирует оценки релевантности, которые затем используются для вычисления метрик, таких как sDCG@K. Строгая валидация показала высокое соответствие между метками, сгенерированными LLM, и человеческими аннотациями, с точностью совпадения 73,7% и сильными корреляциями на основе ранжирования. Это соответствие сохраняется даже для запросов из разных сегментов популярности.Оценка релевантности на основе LLM оказалась эффективной и для неанглоязычных запросов, сохраняя сильные корреляции и низкую предвзятость. Перейдя к оценке релевантности на основе LLM, Pinterest Search смог увеличить наборы оценочных запросов и улучшить качество метрик релевантности для оценки онлайн-экспериментов. Это привело к значительному сокращению ручных усилий по аннотированию и повышению общей эффективности их процесса A/B-тестирования. Выбранная LLM, XLM-RoBERTa-large, обеспечивает хороший баланс между качеством прогнозирования и эффективностью инференса.
CdXz5zHNQW_fbv8G1VHoa.png