ユーザーシーケンスデータをよりコスト効率よく、高速に、そして使いやすくする
このテキストは、Pinterestにおけるユーザーシーケンスプラットフォームの再設計について説明しており、MLモデルのためのユーザー行動データを取得するための堅牢で効率的なシステムを提供することを目的としています。コアゴールは、トレーニング、分析、サービング全体で、一貫性があり、新鮮で、完全で、コスト効率の高いシーケンスを提供することです。プラットフォームは、ユーザーシーケンスを、最近の、エンリッチされたイベントの順序付けられたリストとして定義します。対処された主な課題には、さまざまなユースケースやチーム全体でのデータ鮮度、完全性、一貫性、スケーラビリティの確保が含まれます。このソリューションは、「1つの定義、複数のランタイム」アプローチを採用しており、コンフィギュレーション・アズ・コードと共有実行エンジンを使用して、イベントをリアルタイムおよびバッチで処理します。プラットフォームは、現在のデータと履歴データの両方を管理するためにラムダアーキテクチャを実装しています。この設計により、新しいイベントタイプやエンリッチメントのオンボーディングが容易になり、コードレビューが改善され、リアルタイム処理とバッチ処理間のドリフトが削減されます。3つの重要な設計上の決定は、シーケンスとエンリッチメントのためのコンフィギュレーション・アズ・コード、共有実行エンジン、およびシーケンスのためのラムダアーキテクチャです。その結果、社内のさまざまなMLタスクのためのユーザーシーケンスの構築、保守、および利用プロセスを簡素化するプラットフォームが実現しました。