マルチゲート・ミクスチャー・オブ・エクスパーツ(MMoE)モデルのアーキテクチャーと広告におけるノウハウのディスティレーション
マルチゲート ミクスチャー オブ エクスパート(MMoE)モデルのアーキテクチャーは、専門のサブネットワーク(エクスパート)に動的にリソースを割り当てることで、広告エンゲージメント モデリングを改善します。これにより、単一のモデルよりも効率、汎化、およびマルチタスク ラーニングが改善されます。MMoE は、DCNv2、MaskNet、FinalMLP などの異なるアーキテクチャーのエクスパートを、パフォーマンスとコストに基づいて戦略的に選択しています。モデルはまた、インフラストラクチャー コストを削減するために混合精度推論と軽量ゲート レイヤーを利用しています。既存の生産モデルから新しいモデルへの知識の移転により、知識蒸留がモデルをさらに改善します。これにより、データ保持期間の制限によるパフォーマンスギャップを緩和し、新しいモデルが歴史的なデータから学習することができます。蒸留は、オフラインおよびオンラインのメトリックを大きく改善し、ベースラインの DCNv2 モデルを超えています。この技術は、バッチ トレーニングやモデル再トレーニングのシナリオ、例えば機能アップグレードの際に有益です。ただし、インクリメンタル トレーニング中には過学習を防ぐために蒸留を削除します。MMoE と知識蒸留の組み合わせアプローチにより、プラットフォーム上での広告マッチングの質とユーザー エクスペリエンスが大幅に向上します。これにより、より関連性の高いレコメンデーションとユーザー エンゲージメントの向上を実現します。