대조 강화 학습을 이용한 제품 이해 형성
Etsy의 마켓플레이스는 다양한 수제 및 독특한 제품을 특징으로 하며, 효과적인 검색 및 추천을 위해서는 미묘한 이해가 필요합니다. 현재의 제품 정보는 풍부하지만 종종 구조화되지 않아 머신러닝 모델이 완전히 활용하기 어렵습니다. 핵심 과제는 원시 데이터와 각 제품의 매력을 정의하는 복잡한 세부 정보 간의 격차를 해소하는 데 있습니다. 해결책은 강화 학습 접근 방식과 대조 신호를 사용하는 것을 포함합니다. 이 방법은 구매자 참여 데이터를 사용하여 차별화되는 특징을 강조하는 간결한 제품 요약을 생성하도록 LLM을 미세 조정합니다. 이는 구매자의 선택에 따라 세부 정보를 우선시하도록 모델을 훈련함으로써 달성되며, 관련성 예측을 개선합니다. 모델은 검색 상호 작용 데이터에 대해 훈련되며, 구매자가 다른 목록보다 특정 목록을 선택하게 만든 특징을 강조하는 요약에 보상을 제공합니다. 이러한 강화 학습은 검색 관련성 지표 개선으로 이어지는 요약을 생성하도록 모델을 유도합니다. 인간 평가 및 정량적 오프라인 테스트는 요약의 높은 품질과 다운스트림 모델에 미치는 영향, 성능 향상을 입증했습니다. 이 접근 방식은 판매자의 창의성을 반영하여 엄격한 정의가 아닌 구매자 행동에 기반한 제품 이해에 중점을 둡니다. 향상된 제품 이해는 궁극적으로 구매자가 자신의 취향에 맞는 제품을 발견하도록 도와 쇼핑 경험을 개선합니다. 결과적으로 간결한 요약은 유사한 제품 목록을 차별화하는 주요 특징을 강조합니다. 이 프로젝트는 단순히 키워드와 같은 텍스트 특징만을 사용하는 것에 비해 중요한 제품 세부 정보를 표면화하는 데 강력한 능력을 보여주었습니다.