RSS Stories by Pinterest Engineering on Medium
Подписаться
Архитектура модели Multi-gate-Mixture-of-Experts (MMoE) и дистилляция знаний в рекламе…
Архитектура модели Multi-gate Mixture-of-Experts (MMoE) улучшает моделирование вовлеченности рекламы, динамически распределяя ресурсы между специализированными субсетями (экспертами). Это улучшает эффективность, обобщение и многозадачное обучение по сравнению с одиночными моделями. MMoE использует экспертов с разными архитектурами, такими как DCNv2, MaskNet и FinalMLP, стратегически выбранными на основе производительности и стоимости. Модель также использует смешанную точность вывода и легкие слои шлюзов, чтобы уменьшить инфраструктурные затраты без ущерба для производительности. Дистилляция знанийurther улучшает модель, передавая знания от существующих производственных моделей к новым моделям. Это уменьшает пробелы в производительности, вызванные ограниченными периодами хранения данных, и позволяет новым моделям учиться от недоступных исторических данных. Дистилляция улучшает как офлайн, так и онлайн метрики значительно, превосходя базовую модель DCNv2. Техника является полезной как при пакетном обучении, так и при повторном обучении моделей, таких как обновления функций. Однако дистилляция удаляется при инкрементальном обучении, чтобы предотвратить переобучение. Комбинированный подход MMoE и дистилляции знаний приводит к значительным улучшениям в качестве соответствия рекламы и пользовательского опыта. Это приводит к более релевантным рекомендациям и улучшению вовлеченности пользователей на платформе.