대규모 스마트 URL 정규화: MIQPS가 Pinterest의 콘텐츠 중복 제거를 지원하는 방법
Pinterest는 이미지와 외부 링크에 대한 통찰력을 바탕으로 콘텐츠 배포 및 참여를 유도하기 위해 콘텐츠 이해를 활용합니다. 핵심 문제는 URL 정규화로, 추적 매개변수로 인해 동일한 제품 페이지가 다양한 URL로 표시되는 경우입니다. 이러한 중복성은 반복적인 가져오기 및 처리로 인해 컴퓨팅 리소스 낭비를 초래합니다. 항목 표준화는 다른 URL로 표현되는 동일한 항목을 통합하는 것을 목표로 하며, 쇼핑 카탈로그에 매우 중요합니다. 항목 ID가 없는 경우 고급 URL 정규화가 중복 제거에 필수적입니다.MIQPS(Minimal Important Query Param Set) 알고리즘은 어떤 URL 매개변수가 콘텐츠 ID에 영향을 미치는지 자동으로 학습합니다. 페이지 콘텐츠에 영향을 미치지 않는 중립 매개변수와 영향을 미치는 비중립 매개변수를 구분합니다. 잘 알려진 플랫폼의 경우 정적 규칙이 작동하지만, Pinterest의 방대한 도메인 세트에는 동적이고 데이터 기반 접근 방식이 필요합니다.MIQPS 알고리즘은 세 단계로 작동합니다. 첫째, Pinterest의 수집 파이프라인에서 도메인별 관찰된 URL 코퍼스를 수집합니다. 둘째, URL은 쿼리 매개변수 패턴별로 그룹화되어 매개변수가 특정 컨텍스트에서 분석되도록 합니다. 이렇게 하면 다른 URL 유형에 따라 매개변수를 잘못 분류하는 것을 방지할 수 있습니다.마지막으로, 패턴 내의 각 매개변수에 대해 알고리즘은 경험적으로 중요성을 테스트합니다. 매개변수 값이 다른 URL을 샘플링하고 원본 URL과 수정된 URL(매개변수 제거) 모두에 대한 콘텐츠 ID를 계산합니다. 매개변수를 제거하면 샘플의 상당 부분에서 콘텐츠 ID가 변경되면 비중립으로 분류되고 유지됩니다. 그렇지 않으면 중립으로 간주되어 정규화를 위해 안전하게 제거할 수 있습니다. 각 판매자 도메인은 도메인별 매개변수 의미를 고려하여 자체 MIQPS 맵을 받습니다.