Architecture de modèle Multi-gate-Mixture-of-Experts (MMoE) et distillation de connaissances dans les publicités...
L'architecture de modèle Multi-gate Mixture-of-Experts (MMoE) améliore la modélisation de l'engagement publicitaire en affectant dynamiquement des ressources à des sous-réseaux spécialisés (experts). Cela améliore l'efficacité, la généralisation et l'apprentissage multi-tâches par rapport aux modèles uniques. MMoE exploite des experts avec des architectures diverses comme DCNv2, MaskNet et FinalMLP, choisis de manière stratégique en fonction de la performance et du coût. Le modèle utilise également l'inférence de précision mixte et des couches de porte légères pour réduire les coûts d'infrastructure sans sacrifier les performances. La distillation de connaissances améliore encore le modèle en transférant les connaissances des modèles de production existants vers les nouveaux modèles. Cela atténue les écarts de performance causés par les périodes de rétention de données limitées et permet aux nouveaux modèles d'apprendre à partir de données historiques indisponibles. La distillation améliore significativement les métriques offline et online, surpassant le modèle de référence DCNv2. La technique est bénéfique lors des scénarios d'entraînement par lots et de réentraînement de modèles, tels que les mises à jour de fonctionnalités. Cependant, la distillation est supprimée lors de l'entraînement incrémental pour éviter la sur-apprentissage. L'approche combinée de MMoE et de distillation de connaissances conduit à des améliorations substantielles de la qualité de mise en correspondance des annonces et de l'expérience utilisateur. Cela se traduit par des recommandations plus pertinentes et une amélioration de l'engagement utilisateur sur la plateforme.