피터레스트, 효과적인 백필을 통해 기능 반복 가속화 노트

피터레스트, 효과적인 백필을 통해 기능 반복 가속화

Pinterest는 수십 페타바이트의 데이터로 학습된 최첨단 추천 및 광고 모델을 통해 사용자가 자신이 좋아하는 삶을 큐레이션하도록 영감을 주는 것을 사명으로 삼고 있습니다. 이러한 모델은 개인 맞춤형 추천을 통해 사용자의 관심사에 맞는 콘텐츠를 보여줍니다. 기능을 실험하는 것은 일반적인 작업이며, 첫 번째 단계는 새로운 기능을 학습 데이터 세트에 통합하는 것입니다. 기능을 통합하는 가장 간단한 방법은 포워드 로깅을 사용하는 것이지만, 이 방법은 높은 일당 비용, 높은 개발 시간 비용, 격리 부족, 리소스 낭비 및 불안정성 등의 문제를 안고 있습니다. 기능 백필은 이러한 문제를 해결하기 위해 일반적으로 사용되는 포워드 로깅의 대안입니다. 이 블로그 게시물에서는 저자들이 다양한 기술을 활용하여 비용과 반복 시간을 최대 90배까지 줄인 피처 백필 솔루션을 개발한 방법을 살펴봅니다. 저자들은 Spark를 사용해 훈련 테이블 내에서 피처를 구체화하는 초기 백필 솔루션을 개발했으며, 이 솔루션은 ML 엔지니어 온디맨드에 의해 트리거되는 재사용 가능한 에어플로우 DAG로 작동합니다. 하지만 이 솔루션에는 동시 백필이 불가능하고 컴퓨팅 비용이 높으며 파티션 관리가 수동으로 이루어져야 하는 등의 문제가 있습니다. 이러한 문제를 해결하기 위해 저자들은 프로세스를 두 가지 주요 단계로 간소화하는 2단계 백필 접근 방식을 채택한 v2 버전을 개발했습니다: 기능 스테이징과 기능 프로모션.
CdXz5zHNQW_YKhzxUkvad.png