Pinterestにおけるコンテンツ重複排除を支える、大規模でよりスマートなURL正規化:MIQPSの活用
Pinterestは、コンテンツ理解を活用して配信とエンゲージメントを促進しており、画像と外部リンクに関する洞察が必要です。中心的な問題はURL正規化であり、追跡パラメーターのために同一の商品ページが異なるURLで表示されることです。この冗長性により、繰り返しのフェッチと処理を通じて計算リソースが無駄になります。アイテムの正規化は、異なるURLで表現される同一のアイテムを統合することを目的としており、ショッピングカタログにとって不可欠です。アイテムIDが存在しない場合、高度なURL正規化は重複排除に不可欠です。MIQPS(Minimal Important Query Param Set)アルゴリズムは、コンテンツの同一性に影響を与えるURLパラメーターを自動的に学習します。これは、ページコンテンツに影響を与えない中立的なパラメーターと、影響を与える非中立的なパラメーターを区別します。既知のプラットフォームでは静的なルールが機能しますが、Pinterestの広範なドメインセットには、動的でデータ駆動型のアプローチが必要です。MIQPSアルゴリズムは3つのステップで動作します。まず、Pinterestの取り込みパイプラインから、ドメインごとに観測されたURLのコーパスを収集します。次に、URLはクエリパラメーターパターンによってグループ化され、パラメーターが特定のコンテキストで分析されるようにします。これにより、異なるURLタイプに基づいてパラメーターを誤分類することを防ぎます。最後に、パターン内の各パラメーターについて、アルゴリズムはその重要性を経験的にテストします。異なるパラメーター値を持つURLをサンプリングし、元のURLと変更された(パラメーターが削除された)URLの両方についてコンテンツIDを計算します。パラメーターを削除すると、サンプルのかなりの割合でコンテンツIDが変更される場合、それは非中立として分類され、保持されます。そうでない場合、それは中立と見なされ、正規化のために安全に削除できます。各マーチャントドメインは独自のMIQPSマップを受け取り、ドメイン固有のパラメーターの意味を考慮に入れます。