マルチゲート・ミクスチャー・オブ・エクスパーツ（MMoE）モデルのアーキテクチャーと広告におけるノウハウのディスティレーション

Medium上のPinterest EngineeringによるRSSストーリー

フォロー

マルチゲート・ミクスチャー・オブ・エクスパーツ（MMoE）モデルのアーキテクチャーと広告におけるノウハウのディスティレーション

マルチゲートミクスチャーオブエクスパート（MMoE）モデルのアーキテクチャーは、専門のサブネットワーク（エクスパート）に動的にリソースを割り当てることで、広告エンゲージメントモデリングを改善します。これにより、単一のモデルよりも効率、汎化、およびマルチタスクラーニングが改善されます。MMoE は、DCNv2、MaskNet、FinalMLP などの異なるアーキテクチャーのエクスパートを、パフォーマンスとコストに基づいて戦略的に選択しています。モデルはまた、インフラストラクチャーコストを削減するために混合精度推論と軽量ゲートレイヤーを利用しています。既存の生産モデルから新しいモデルへの知識の移転により、知識蒸留がモデルをさらに改善します。これにより、データ保持期間の制限によるパフォーマンスギャップを緩和し、新しいモデルが歴史的なデータから学習することができます。蒸留は、オフラインおよびオンラインのメトリックを大きく改善し、ベースラインの DCNv2 モデルを超えています。この技術は、バッチトレーニングやモデル再トレーニングのシナリオ、例えば機能アップグレードの際に有益です。ただし、インクリメンタルトレーニング中には過学習を防ぐために蒸留を削除します。MMoE と知識蒸留の組み合わせアプローチにより、プラットフォーム上での広告マッチングの質とユーザーエクスペリエンスが大幅に向上します。これにより、より関連性の高いレコメンデーションとユーザーエンゲージメントの向上を実現します。

Multi-gate-Mixture-of-Experts (MMoE) model architecture and knowledge distillation in Ads… medium.com

RSS Hunter • 2025年4月24日