Comment Pinterest accélère les... Note

Comment Pinterest accélère les itérations de fonctionnalités ML via une mise en remplissage efficace

Chez Pinterest, la mission est d'inspirer les utilisateurs à créer une vie qu'ils aiment, ce qui repose sur des modèles de recommandation et de publicités de pointe formés à partir de dizaines de pétaoctets de données. Ces modèles entraînent des recommandations personnalisées, montrant aux utilisateurs du contenu qui résonne avec leurs intérêts. Expérimenter avec des fonctionnalités est une tâche courante, et la première étape consiste à intégrer de nouvelles fonctionnalités dans le jeu de données d'apprentissage. La méthode la plus directe pour intégrer des fonctionnalités est par enregistrement en avant, mais cette méthode pose des défis tels que coût élevé en jours calendaires, temps de développement élevé, manque d'isolement, gaspillage de ressources et instabilité. Le backfill de fonctionnalités est une alternative à l'enregistrement en avant couramment utilisée pour répondre à ces défis. Dans cet article de blog, les auteurs explorent comment ils ont créé leur solution de backfill de fonctionnalités, en exploitant diverses techniques pour réduire les coûts et le temps d'itération jusqu'à 90 fois. Les auteurs ont développé une solution de backfill initiale utilisant Spark pour matérialiser les fonctionnalités dans leurs tables d'apprentissage, qui fonctionne comme un DAG Airflow réutilisable déclenché par les ingénieurs ML sur demande. Cependant, cette solution pose des défis tels que l'absence de backfills concurrents, coût de calcul élevé et gestion manuelle des partitions. Pour répondre à ces défis, les auteurs ont développé une version v2, adoptant une approche de backfill en deux étapes, qui rationalise le processus en deux étapes clés : la mise en scène des fonctionnalités et la promotion des fonctionnalités.
CdXz5zHNQW_YKhzxUkvad.png