大规模智能 URL 规范化:MIQPS 如何助力 Pinte... 笔记

大规模智能 URL 规范化:MIQPS 如何助力 Pinterest 实现内容去重

Pinterest 利用内容理解来驱动内容分发与用户互动,这需要深入理解图像和出站链接。核心问题在于 URL 规范化:由于跟踪参数的存在,相同的产品页面可能以多种不同的 URL 形式出现。这种冗余会导致重复抓取和处理,从而浪费计算资源。项目规范化旨在将不同 URL 所代表的相同项目统一起来,这对于购物目录至关重要。当项目 ID 缺失时,高级 URL 规范化对于去重尤为关键。最小重要查询参数集(MIQPS)算法能够自动学习哪些 URL 参数会影响内容身份。该算法能够区分中性参数(不影响页面内容)和非中性参数(会影响页面内容)。虽然静态规则适用于知名平台,但 Pinterest 拥有庞大的域名集合,因此需要一种动态的、数据驱动的方法。MIQPS 算法分为三个步骤。首先,从 Pinterest 的摄入管道中收集每个域名的观测 URL 语料库。其次,根据查询参数模式对 URL 进行分组,确保参数在其特定上下文中进行分析,避免因 URL 类型不同而错误分类参数。最后,对于模式中的每个参数,算法通过实证测试其重要性。它会采样具有不同参数值的 URL,并计算原始 URL 和修改后(移除该参数)URL 的内容 ID。如果在一定比例的样本中,移除该参数会导致内容 ID 发生显著变化,则该参数被归类为非中性参数并予以保留;否则,该参数被视为中性参数,可在规范化过程中安全移除。每个商家域名都会获得专属的 MIQPS 映射表,以反映该域名下参数的特定含义。
CdXz5zHNQW_WVip85jMBw.png