让用户序列数据更经济、更快速、更易用
本文描述了 Pinterest 对用户序列平台的重新设计,旨在为机器学习模型提供一套稳健且高效的用户行为数据检索系统。核心目标是在训练、分析和推理场景中,提供一致、新鲜、完整且具成本效益的序列。该平台将用户序列定义为近期增强事件的有序列表。所解决的关键挑战包括确保在不同使用场景和团队间的数据新鲜度、完整性、一致性与可扩展性。解决方案采用“单一定义,多运行时”的方法,利用代码即配置(configuration-as-code)和共享执行引擎,对事件进行实时与批处理。平台实施 Lambda 架构以同时管理当前数据与历史数据。该设计简化了新事件类型及增强的接入,提升了代码审查效率,并减少了实时处理与批处理之间的偏差。三项关键设计决策分别为:序列与增强的代码即配置、共享执行引擎,以及用于序列的 Lambda 架构。最终成果是一个简化了公司在各类机器学习任务中构建、维护和使用用户序列流程的平台。