LLM 기반 Pinterest 검색용 관련성 평가 노트

LLM 기반 Pinterest 검색용 관련성 평가

Pinterest 검색, LLM을 활용한 검색 관련성 평가 방법 개발Pinterest 검색팀은 대규모 언어 모델(LLM)을 활용하여 검색 관련성 평가를 개선하는 방법을 개발했습니다. 기존의 관련성 측정 방식은 비용이 많이 드는 사람의 주석에 의존하여 A/B 실험의 규모와 민감도를 제한했습니다. 이를 해결하기 위해 Pinterest는 사람의 레이블이 지정된 데이터로 오픈소스 LLM을 미세 조정하여 핀(Pin)이 쿼리에 얼마나 관련 있는지 예측하도록 했습니다. 이 LLM 기반 접근 방식은 핀 제목, 설명, 이미지 캡션과 같은 기능을 활용하여 관련성 예측을 다중 클래스 분류 문제로 취급합니다.계층적 쿼리 샘플링 설계를 채택하여 최소 감지 효과(MDE)를 한 자릿수 이상 크게 줄였습니다. 이 새로운 방법론은 이질적인 처리 효과를 측정하고 평가 효율성을 향상시킵니다. LLM 레이블링 프로세스는 비용과 시간을 크게 절감하여 더 크고 대표적인 표본 크기를 사용할 수 있게 합니다.미세 조정 후 LLM 기반 관련성 모델은 관련성 점수를 생성하며, 이를 사용하여 sDCG@K와 같은 지표를 계산합니다. 엄격한 검증 결과 LLM 생성 레이블과 사람의 주석 간에 높은 일치율을 보였으며, 정확히 일치하는 비율은 73.7%였고 순위 기반 상관 관계도 강했습니다. 이러한 일치는 쿼리별 인기도 세그먼트가 다른 경우에도 유지되었습니다.LLM 기반 관련성 평가는 비영어 쿼리에서도 효과적이었으며, 강한 상관 관계와 낮은 편향을 유지했습니다. LLM 기반 관련성 평가로 전환함으로써 Pinterest 검색은 평가 쿼리 세트를 확장하고 온라인 실험 평가를 위한 관련성 지표의 품질을 향상시킬 수 있었습니다. 이를 통해 수동 주석 작업이 크게 줄어들고 A/B 테스트 프로세스의 전반적인 효율성이 향상되었습니다. 선택된 LLM인 XLM-RoBERTa-large는 예측 품질과 추론 효율성의 좋은 균형을 제공합니다.
CdXz5zHNQW_fbv8G1VHoa.png