사용자 시퀀스 데이터의 비용 효율성, 속도, 사용 편의성 향상
이 텍스트는 Pinterest의 사용자 시퀀스 플랫폼 재설계를 설명하며, ML 모델을 위한 사용자 행동 데이터 검색을 위한 견고하고 효율적인 시스템을 제공하는 것을 목표로 합니다. 핵심 목표는 학습, 분석 및 서빙 전반에 걸쳐 일관되고 최신이며 완전하고 비용 효율적인 시퀀스를 제공하는 것입니다. 플랫폼은 사용자 시퀀스를 최근의 풍부한 이벤트의 순서 목록으로 정의합니다. 해결된 주요 과제에는 다양한 사용 사례 및 팀에 걸쳐 데이터 최신성, 완전성, 일관성 및 확장성 보장이 포함됩니다. 솔루션은 "하나의 정의, 여러 런타임" 접근 방식을 채택하여 구성 코드화 및 공유 실행 엔진을 사용하여 실시간 및 배치로 이벤트를 처리합니다. 플랫폼은 현재 및 과거 데이터를 관리하기 위해 람다 아키텍처를 구현합니다. 이 설계를 통해 새로운 이벤트 유형 및 풍부화의 온보딩이 용이해지고, 코드 검토가 개선되며, 실시간 및 배치 처리 간의 드리프트가 줄어듭니다. 세 가지 중요한 설계 결정은 시퀀스 및 풍부화를 위한 구성 코드화, 공유 실행 엔진, 시퀀스를 위한 람다 아키텍처입니다. 결과적으로 이 플랫폼은 회사 내 다양한 ML 작업을 위한 사용자 시퀀스를 구축, 유지 관리 및 활용하는 프로세스를 단순화합니다.