Medium 上 Pinterest 工程团队的 RSS 故事 - TheNote.app

Medium 上 Pinterest 工程团队的 RSS 故事
关注

Medium 上的 Pinterest 工程展示了推动流行视觉发现平台的技术创新。通过深入的文章，工程师们分享了他们在可扩展性、机器学习、数据基础设施等方面的工作见解。该出版物强调了 Pinterest 的工程文化，强调协作、实验和解决复杂问题的热情。读者可以探索诸如构建推荐系统、优化搜索功能和开发数据分析工具等主题。内容为工程师和技术爱好者提供了宝贵的视角，了解像 Pinterest 这样的大型平台的技术细节。无论是深入研究图像识别的挑战还是他们基础设施的演变，Medium 上的 Pinterest 工程都为人们提供了一个迷人的技术视角。

Stories by Pinterest Engineering on Medium medium.com

RSS Hunter • 2024年8月23日

笔记线程

实现 Pinterest 基础模型的近线性训练可扩展性

Pinterest 的基础模型对其推荐系统至关重要，每日影响数百万用户。最初，这些大模型的分布式多节点训练效果不佳，增加机器数量反而大幅拖慢训练进程。即便采用 AWS Elastic Fabric Adapter（EFA）以提升网络性能，扩展效率依然低下。性能分析显示，分布式嵌入查找造成了严重的通信瓶颈，GPU 因等待数据而闲置。团队实施了多项优化以解决这一通信开销问题：量化通信（QComms）通过压缩嵌入张量减少了数据负载；均衡分片改善了 GPU 间的工作负载分布；带宽感知的嵌入优化将嵌入维度减半，从而降低数据移动量。关键突破在于实现二维并行性，最初针对 AllReduce 进行优化，提升了本地通信效率。随后，团队将二维并行性的拓扑结构翻转，以优化 All-to-All 通信，将昂贵操作保留在节点内部，并利用成本较低的 AllReduce 进行跨节点同步。这一改进实现了接近线性的扩展性能：2 节点时达到 2.0 倍，4 节点时达到 3.9 倍，8 节点时更是达到令人瞩目的 7.5 倍扩展。这些进展使得训练更大规模的模型成为可能，从而显著提升了 Pinterest 推荐界面中的用户参与度，并加快了实验迭代周期。

Achieving Near-Linear Training Scalability for Pinterest’s Foundation Models medium.com

RSS Hunter • 6月25日

Pinterest 下一代数据库摄入框架中的自动化模式演进

Pinterest 为其基于 Kafka 的 CDC 摄入平台开发了一套稳健、自动化的模式演进框架。模式变更是跨系统的关键契约，若缺乏管控的演进可能导致管道故障和数据不一致。其解决方案旨在通过将其视为多阶段收敛过程，使模式演进具备安全性、可重复性和可扩展性。该架构涉及 CDC 源、Kafka、用于转换的 Flink 以及用于向 Iceberg 表执行 upsert 操作的 Spark。核心组件是一个可靠的接入模型，该模型以包含稳定数字标识符的模式定义文件作为单一事实来源。更新通过基于 PR 的发布流程（包含版本控制和审计）自动传播至 Kafka、Flink、Spark 和 Iceberg。该系统主要支持增量式模式变更，以维持向后兼容性并最小化复杂性。类型变更严格限制为保留语义含义的变更，例如数值精度扩展。模式演进通过三阶段收敛模型进行管理，以维持管道可用性。第一阶段更新 Iceberg 模式，第二阶段部署更新后的 Flink 和 Spark 代码，第三阶段确保数据收敛。这种分阶段方法将模式传播与数据正确性解耦，允许在定义的 SLA 范围内存在临时差异。Pinterest 采用基于 SLA 的模式演进模型，优先保证可预测性和运营安全性。部署策略经过精心管理，尤其是针对 Flink，以防止数据丢失。对于不支持或存在歧义的情况（如默认值或主键变更），设有特定的手动恢复路径。针对 CREATE TABLE 差异的歧义问题，通过对比数据库的实际 DDL 历史记录来解决，而非从文本变更中推断意图。并发模式变更按顺序处理，以防止竞态条件，确保串行收敛。列转换通过为模式添加所需转换注解进行管理，这些注解随后被注入摄入管道。错误处理与恢复机制（特别是针对 Spark 故障）确保处理能够从最后一个成功的水印处恢复。

Automated Schema Evolution in Pinterest’s Next-Generation DB Ingestion Framework medium.com

RSS Hunter • 6月24日

让用户序列数据更经济、更快速、更易用

本文描述了 Pinterest 对用户序列平台的重新设计，旨在为机器学习模型提供一套稳健且高效的用户行为数据检索系统。核心目标是在训练、分析和推理场景中，提供一致、新鲜、完整且具成本效益的序列。该平台将用户序列定义为近期增强事件的有序列表。所解决的关键挑战包括确保在不同使用场景和团队间的数据新鲜度、完整性、一致性与可扩展性。解决方案采用“单一定义，多运行时”的方法，利用代码即配置（configuration-as-code）和共享执行引擎，对事件进行实时与批处理。平台实施 Lambda 架构以同时管理当前数据与历史数据。该设计简化了新事件类型及增强的接入，提升了代码审查效率，并减少了实时处理与批处理之间的偏差。三项关键设计决策分别为：序列与增强的代码即配置、共享执行引擎，以及用于序列的 Lambda 架构。最终成果是一个简化了公司在各类机器学习任务中构建、维护和使用用户序列流程的平台。

Making User-Sequence Data More Cost-Efficient, Faster, and Easier to Use medium.com

RSS Hunter • 5月21日

工程师提升 AI 技能指南：实施测试流程以优化智能体……

工程师在使用 AI 代理时遇到了不可靠的问题，尤其是在需要调用自定义技能时。为解决此问题，针对采用特定 iOS 架构技能的代理进行了测试，旨在量化技能调用的可靠性并识别优化技术。核心测试工具基于 Bash 脚本构建，该工具通过提示词编排自动化测试，记录日志并检查结果。定义了正例和反例测试用例，以评估技能的调用能力。实现了日志解析技术，基于 JSON 输出模式检测技能的调用。计算了成功率、准确率等关键性能指标，以评估代理的性能。初步测试显示，两个代理的技能调用率均不理想，尤其在提示词模糊的情况下。发现了若干优化措施，包括增强技能描述、使用更具强制性的措辞以及添加技能表。结合多种技术可取得更好的效果，特别是对于 Codex 代理。结论强调了测试和改进技能调用流程的重要性。开发人员必须使用高质量、详尽的提示词，以最大化 AI 代理的有效性。

An Engineer’s Guide to Better AI Skills: Implementing a Testing Process to Optimize Agent… medium.com

RSS Hunter • 5月12日

增强广告相关性：将实时上下文融入序列推荐模型

作者开发了一种上下文序列双塔模型，以提升 Pinterest 的广告推荐效果，特别是在“相关图钉”（Related Pins）等特定上下文界面。初始模型缺乏实时上下文，仅依赖用户历史行为，导致其效果受限。为解决这一问题，他们在模型架构中集成了上下文层，使模型能够纳入用户当前活动的信息。在训练阶段，他们使用合成数据，通过注入源自转化事件的伪上下文来指导模型学习。系统采用混合服务流程：用户塔的大部分处理在离线完成，而上下文层在线处理。这使得动态用户嵌入能够受实时上下文影响，从而提升相关性。离线评估显示，与之前的生产模型相比，Recall@K 指标显著提升。新模型提高了候选广告的留存率并增强了广告相关性，尤其在“相关图钉”界面上表现突出。这带来了可衡量的转化相关业务指标增长，特别是广告支出回报率（ROAS）。未来工作包括将模型扩展至搜索等其他界面，并尝试高级融合技术，如交叉注意力（cross-attention）。这项工作证明了融入实时上下文对于提升广告相关性和用户体验的重要性。

Enhancing Ad Relevance: Integrating Real-Time Context into Sequential Recommender Models medium.com

RSS Hunter • 5月8日

优化机器学习工作负载网络效率（第一部分）：特征修剪器

Pinterest 的在线机器学习（ML）服务系统采用根 - 叶架构，客户端服务通过该架构请求 Pin 的预测分数。根组件负责特征检索与预处理，而叶节点执行模型推理，通常利用 GPU。该设计简化了新模型的接入流程，并通过分离 CPU 与 GPU 工作负载优化资源利用率。然而，由于传递大量特征，根与叶分区之间出现了网络瓶颈。最初，系统实施了 lz4 压缩以减少网络用量，虽显著节省了带宽，但导致 CPU 使用率和延迟略有上升。这虽是一个良好的开端，但核心问题——传输不必要的特征——依然存在。随后，团队开发了“按需发送”（Send What You Use）方案，仅发送特定模型所需的特征，以解决这一问题。模型签名（model signature）定义了模型的输入与输出，是特征需求的权威来源。模型在训练并导出时，其签名会一同保存。Leaf 节点加载这些签名，构建特征转换器，仅处理必要特征。为同步根与叶之间的特征需求，模型签名被发布为轻量级工件（artifacts）。这些签名被聚合为包级映射（bundle-level mappings），随后与现有配置一同部署至根节点。该部署流程遵循与模型发布相同的分阶段交付机制，确保一致性并支持优雅回滚。此集成使得 Feature Trimmer 能够动态更新根节点上的特征白名单，确保仅传输必要特征。系统通过版本化查找和降级机制，处理频繁模型更新与渐进式发布，确保根节点对所需特征的视图与实际部署在叶节点上的模型保持同步。通过剪枝不必要的特征，Pinterest 显著降低了网络流量并提升了基础设施效率。

Optimizing ML Workload Network Efficiency (Part I): Feature Trimmer medium.com

RSS Hunter • 5月1日

从点击到转化：构建 Pinterest 购物转化候选生成系统

Pinterest 为转化广告开发了一个专用的候选生成模型，以应对站外转化数据稀疏和噪声问题。该模型与以往基于互动的系统不同，专注于低漏斗转化。2023 年初次上线后，转化和互动指标均显著提升，包括点击率提高。2025 年的进一步迭代带来了更高的转化价值和更优的广告支出回报率。为应对数据稀疏问题，该模型采用多表面策略，在所有购物场景中训练，并辅以站内互动数据作为主要转化信号的补充，同时根据点击时长对点击数据进行重新加权，以减轻噪声影响。模型还引入“硬负样本”（如无互动的广告曝光），以增强对比学习的鲁棒性。模型融合了用户侧特征（捕捉实时意图与长期偏好）和 Pin 侧特征（用于语义理解与效果追踪）。其采用双塔架构，结合 DCN v2 与并行交叉层中的 MLP，提升了特征交互建模与召回质量。模型从多头设计演进为统一的多任务架构，使得在推理阶段可直接受益于多任务优化。此外，引入广告主级损失函数，为转化信号提供更稳定的粒度，显著提升了召回效果。该新模型成功增加了购物转化量，改善了广告主表现，同时优化了用户的购物体验。

From Clicks to Conversions: Architecting Shopping Conversion Candidate Generation at Pinterest medium.com

RSS Hunter • 4月27日

大规模智能 URL 规范化：MIQPS 如何助力 Pinterest 实现内容去重

Pinterest 利用内容理解来驱动内容分发与用户互动，这需要深入理解图像和出站链接。核心问题在于 URL 规范化：由于跟踪参数的存在，相同的产品页面可能以多种不同的 URL 形式出现。这种冗余会导致重复抓取和处理，从而浪费计算资源。项目规范化旨在将不同 URL 所代表的相同项目统一起来，这对于购物目录至关重要。当项目 ID 缺失时，高级 URL 规范化对于去重尤为关键。最小重要查询参数集（MIQPS）算法能够自动学习哪些 URL 参数会影响内容身份。该算法能够区分中性参数（不影响页面内容）和非中性参数（会影响页面内容）。虽然静态规则适用于知名平台，但 Pinterest 拥有庞大的域名集合，因此需要一种动态的、数据驱动的方法。MIQPS 算法分为三个步骤。首先，从 Pinterest 的摄入管道中收集每个域名的观测 URL 语料库。其次，根据查询参数模式对 URL 进行分组，确保参数在其特定上下文中进行分析，避免因 URL 类型不同而错误分类参数。最后，对于模式中的每个参数，算法通过实证测试其重要性。它会采样具有不同参数值的 URL，并计算原始 URL 和修改后（移除该参数）URL 的内容 ID。如果在一定比例的样本中，移除该参数会导致内容 ID 发生显著变化，则该参数被归类为非中性参数并予以保留；否则，该参数被视为中性参数，可在规范化过程中安全移除。每个商家域名都会获得专属的 MIQPS 映射表，以反映该域名下参数的特定含义。

Smarter URL Normalization at Scale: How MIQPS Powers Content Deduplication at Pinterest medium.com

RSS Hunter • 4月20日

在系统中发现僵尸进程：一个关于 CPU 瓶颈的真实案例

Pinterest 的机器学习平台团队曾因间歇性网络连接问题，导致基于 Ray 的训练任务频繁崩溃，从而引发了 PinCompute 团队的深入调查。此次调查历时超过三个月，发现故障与 AWS EC2 实例上的 ENA 网络驱动程序重置存在相关性。这些重置由 CPU 饥饿引起，并与高系统 CPU 使用率相关联。初期，团队尝试了多种解决方案，包括使用大页内存和内存分配器，但均未能解决问题。值得注意的是，该问题仅出现在 Pinterest 的某个 AWS 可用区。通过 perf 和 mpstat 进行的性能分析揭示了单个 CPU 核心饱和的现象。利用 perf 进行的时序性能剖析进一步锁定了一个间歇性占用大量 CPU 资源的进程为罪魁祸首。该进程被确认为僵尸进程。对僵尸进程及其对 CPU 利用率和网络驱动程序性能影响的发现，使团队更深入地理解了系统瓶颈所在。

Finding zombies in our systems: A real-world story of CPU bottlenecks medium.com

RSS Hunter • 4月15日

基于请求级去重的推荐系统扩展

Pinterest 利用请求级去重技术来优化其推荐模型并管理基础设施成本。该技术避免了请求级数据的冗余处理，其中包含海量的用户行为序列。去重显著降低了存储需求，在用户密集型特征列上，借助 Apache Iceberg 实现了 10 至 50 倍的存储压缩比。在实现请求排序数据的过程中，Pinterest 通过同步批归一化（SyncBatchNorm）和用户级掩码技术解决了相关问题，同时保持了模型质量。这一举措带来了显著的训练加速效果：召回模型提升 4 倍，排序模型提升 2.8 倍。此外，它还提升了服务吞吐量，使得基于去重交叉注意力 Transformer（DCAT）架构的排序服务容量提升了 7 倍。这一综合方案在存储、训练和服务三个维度均产生了深远影响。总体而言，请求级去重是一种跨领域的技术，其解决方案虽简单却行之有效。

Scaling Recommendation Systems with Request-Level Deduplication medium.com

RSS Hunter • 4月13日

Pinterest 的开发者体验：通往 PinConsole 的历程

Pinterest 面临着工程速度挑战，因为技术复杂性增加了随着用户基础的增长。该公司认识到，其分散的工具采纳策略创建了瓶颈和新工程师的压倒性景观。为解决这个问题，Pinterest 决定重新imagining 其开发者体验，通过建立一个名为 PinConsole 的内部开发者平台。PinConsole 是一个基于开源 Backstage 平台的统一开发者门户。该平台方法旨在创建一致的抽象层，使工程师专注于业务逻辑，而不是基础设施。在评估各种解决方案后，Pinterest 选择了 Backstage，因为它拥有强大的社区采纳、可扩展的插件架构和活跃的开发。PinConsole 与 Pinterest 的内部身份验证系统和 LDAP 集成，以实现统一的实体模型。该架构利用 PostgreSQL 数据库进行数据存储，并应用 Pinterest 的 Gestalt 设计系统以确保 UI 一致性。一个关键组件是 PinCompute 插件，一个自定义的 Kubernetes 集成，简化了使用 Pinterest 特定的抽象来管理工作负载。个人化的首页小部件，如 GitHub 集成，进一步增强了开发者体验，减少了上下文切换并提供了相关信息。

Developer Experience at Pinterest: The Journey to PinConsole medium.com

RSS Hunter • 2025年8月22日

将370万行Flow代码迁移到TypeScript

Pinterest 将 370 万行代码从 Flow 迁移到 TypeScript，历时八个月，结果是类型安全性、开发者体验和招聘都得到了改善。公司最初在 2016 年选择 Flow 而不是 TypeScript，是因为 Flow 的渐进式采用和与 React 的无缝集成。但是，随着行业将 TypeScript 视为 JavaScript 类型检查的标准，Pinterest 决定采用它，因为它拥有更好的社区支持、语言特性和人才储备。迁移过程使用“大爆炸”方法，分为三个阶段：设置、转换和集成。设置阶段涉及配置 TypeScript 和 @typescript-eslint，而转换阶段涉及迁移依赖项、运行 codemods 和抑制 ESLint 错误。集成阶段集中于将现有系统适应新的 TypeScript 环境。公司编写了一个脚本来自动化整个过程，尽量减少合并冲突和手动干预。在通过每日自动测试、多轮手动测试和字节级静态分析验证迁移后，Pinterest 成功推出了 TypeScript 分支。公司从开源社区中学到了很多，并贡献了 Stripe 的 flow-to-typescript codemod。Pinterest 的经验为其他公司考虑类似迁移提供了宝贵的教训。

Migrating 3.7 Million Lines of Flow Code to TypeScript medium.com

RSS Hunter • 2025年4月16日

使用 AWS EC2 在 Pinterest 处理网络限速

视觉搜索引擎Pinterest在AWS上运行，并使用Amazon EC2实例作为其计算机队伍。该公司发现了管理EC2基础设施的重大挑战，特别是在线存储系统，因为缺乏对EC2网络性能的明确见解及其对应用程序可靠性和性能的影响。为解决此问题，Pinterest为其EC2机队开发了网络性能监控，并实施了管理网络burst的技术，以确保关键在线服务工作负载的可靠网络性能。该公司遇到了用户序列服务问题，该问题驱动了显著的用户参与胜利，但导致了服务延迟和应用程序超时。在EC2实例迁移期间，Pinterest在许多集群中看到显著的性能下降，导致应用程序超时。该公司发现EC2实例由于微burst超过网络配额而经历网络限制。为了使EC2网络限制行为更加透明，Pinterest将其实例升级到使用工具如ethtool访问原始计数器在EC2实例上。该公司修改了其内部指标收集代理，以抓取这些计数器并将其摄入其指标存储。通过将这些ENA指标推广到其整个EC2机队，Pinterest获得了对AWS流量整形的前所未有的可见性，并实施了各种优化以缓解网络限制。该公司还探索了处理网络burst的技术，包括细粒度的S3速率限制、数据备份调整和网络压缩。

Handling Network Throttling with AWS EC2 at Pinterest medium.com

RSS Hunter • 2025年4月7日

使用大型语言模型改进 Pinterest 搜索相关性

Pinterest 搜索是用户可以发现与他们的信息需求相符的启发性内容的关键入口，搜索相关性衡量搜索结果与搜索查询的匹配程度。为了改进搜索相关性模型，我们使用一个 5 级准则来衡量查询和 Pins 之间的相关性。我们使用交叉编码器语言模型来预测 Pin 与查询的相关性，同时结合 Pin 文本，并将任务表述为多类别分类问题。该模型使用人工标注的数据进行微调，最小化交叉熵损失。为了表示每个 Pin，我们使用了一系列不同的文本特征，包括 Pin 的标题和描述、合成的图像标题、高参与度的查询词、用户策划的板块标题以及链接标题和描述。然而，基于交叉编码器 LLM 的分类器由于实时延迟和成本的考虑，难以在 Pinterest 搜索中进行扩展。因此，我们使用知识蒸馏将基于 LLM 的教师模型蒸馏成一个轻量级的学生相关性模型。学生模型使用查询级特征、Pin 级特征和查询-Pin 交互特征来预测 5 级相关性分数。我们采用知识蒸馏和半监督学习来训练学生模型，这有效地利用了大量最初未标记的数据，并将数据扩展到世界范围内的多种语言。离线实验证明了每个建模决策的有效性，包括语言模型的比较、丰富文本特征的重要性以及通过蒸馏扩大训练标签规模。在线结果显示，搜索 feed 相关性提高了 +2.18%（通过 nDCG@20 衡量），并且在全球范围内搜索完成率显着提高。所提出的相关性建模流程有效地推广到训练期间未遇到的语言，而基于多语言 LLM 的相关性教师模型则推广到未见的语言。未来的工作将探索整合可服务的 LLM、视觉与语言多模态模型以及主动学习策略，以动态扩展和提高训练数据的质量。

Improving Pinterest Search Relevance Using Large Language Models medium.com

RSS Hunter • 2025年4月4日