Multi-Gate-Mixture-of-Experts-... Notiz

Multi-Gate-Mixture-of-Experts-Modell-Architektur und Wissensdestillation in Anzeigen...

Das Multi-Gate-Mixture-of-Experts-Modell (MMoE) verbessert die Modellierung der Werbeanzeigen-Interaktion, indem es dynamisch Ressourcen auf spezielle Teilnetzwerke (Experten) verteilt. Dies verbessert die Effizienz, die Verallgemeinerung und das Multi-Task-Lernen im Vergleich zu einzelnen Modellen. MMoE nutzt Experten mit verschiedenen Architekturen wie DCNv2, MaskNet und FinalMLP, die strategisch ausgewählt werden, basierend auf Leistung und Kosten. Das Modell verwendet auch gemischte Präzisionsinferenz und leichte Gate-Schichten, um die Infrastrukturkosten zu reduzieren, ohne die Leistung zu beeinträchtigen. Die Wissensdestillation verbessert das Modell weiter, indem es Wissen von bestehenden Produktionsmodellen auf neue Modelle überträgt. Dies minimiert Leistungslücken, die durch begrenzte Datenretentionszeiträume verursacht werden, und ermöglicht es neuen Modellen, von nicht verfügbaren historischen Daten zu lernen. Die Destillation verbessert sowohl Offline- als auch Online-Metriken signifikant, übertreffe das Baseline-DCNv2-Modell. Die Technik ist vorteilhaft sowohl bei Batch-Training als auch bei Modell-Neu-Training-Szenarien, wie z.B. Feature-Upgrades. Allerdings wird die Destillation während des inkrementellen Trainings entfernt, um Überanpassung zu vermeiden. Der kombinierte Ansatz von MMoE und Wissensdestillation führt zu erheblichen Verbesserungen bei der Werbeanzeigen-Übereinstimmungsqualität und der Benutzererfahrung. Dies führt zu relevanteren Empfehlungen und verbessertem Benutzerengagement auf der Plattform.
CdXz5zHNQW_Eh609KFgJk.png