Étendre l'infrastructure d'apprentissage automatique de Pinterest avec Ray : du entraînement aux pip

Histoires RSS par Pinterest Engineering sur Medium

Suivre

Étendre l'infrastructure d'apprentissage automatique de Pinterest avec Ray : du entraînement aux pipelines d'apprentissage automatique de bout en bout

Chez Pinterest, les ingénieurs en apprentissage automatique (ML) rencontrent des défis pour optimiser le développement de fonctionnalités, les stratégies d'échantillonnage et l'expérimentation d'étiquettes en raison de pipelines de données lents, de coûteuses itérations de fonctionnalités et d'une utilisation inefficace des ressources de calcul. Pour relever ces défis, Pinterest a étendu les capacités de Ray au-delà de la formation pour inclure le développement de fonctionnalités, l'échantillonnage et la modélisation d'étiquettes. L'infrastructure ML traditionnelle était contrainte par des pipelines de données lents, des itérations de fonctionnalités coûteuses et une utilisation inefficace des ressources de calcul. Pinterest a introduit une pile d'infrastructure ML native Ray, se concentrant sur quatre améliorations majeures : la création d'une API de pipeline de données native Ray, la jointure de données efficace avec les jointures de bucket Iceberg, la persistance des données pour l'itération efficace et les optimisations de données Ray pour les charges de travail importantes. Le nouveau workflow ML alimenté par Ray réduit les temps d'itération ML de 10 fois tout en réduisant significativement les coûts d'infrastructure. L'API de pipeline de données native Ray permet le développement de fonctionnalités, l'échantillonnage et les transformations d'étiquettes nativement dans Ray, éliminant la nécessité de retours Spark. Les jointures de bucket Iceberg permettent des jointures de fonctionnalités rapides et efficaces à partir de différentes sources sans précalculer de grandes tables. La persistance des données permet une itération efficace en mettant en cache les fonctionnalités transformées et en les réutilisant lorsque cela est possible. Les optimisations de données Ray ont atteint une accélération de 2-3 fois sur différents pipelines, et le nouveau workflow a débloqué une infrastructure ML plus scalable, efficace et économique chez Pinterest.

Scaling Pinterest ML Infrastructure with Ray: From Training to End-to-End ML Pipelines medium.com

RSS Hunter • 24 juin 2025