Wie Pinterest die Iteration vo... Notiz

Wie Pinterest die Iteration von ML-Features durch effektives Backfill beschleunigt

Bei Pinterest lautet die Mission, Benutzer dazu zu inspirieren, ein Leben zu kuratieren, das sie lieben, was auf state-of-the-art-Empfehlungs- und Anzeigenmodellen basiert, die auf Zehntausenden von Petabytes an Daten trainiert werden. Diese Modelle treiben personalisierte Empfehlungen an, indem sie Benutzern Inhalte, die mit ihren Interessen übereinstimmen. Das Experimentieren mit Funktionen ist eine gemeinsame Aufgabe, und der erste Schritt besteht darin, neue Funktionen in das Trainingsdataset zu integrieren. Die einfachste Methode, Funktionen zu integrieren, ist durch Forward-Logging, aber diese Methode birgt Herausforderungen wie hohe Kalendertagekosten, hohe Entwicklungszeitkosten, mangelnde Isolation, Ressourcenverschwendung und Instabilität. Feature-Backfill ist eine Alternative zu Forward-Logging, die häufig verwendet wird, um diese Herausforderungen anzugehen. In diesem Blog-Beitrag erkunden die Autoren, wie sie ihre Feature-Backfill-Lösung entwickelt haben, indem sie verschiedene Techniken einsetzen, um Kosten und Iterationszeit um bis zu 90x zu reduzieren. Die Autoren entwickelten eine initiale Backfill-Lösung, um Funktionen innerhalb ihrer Trainings-Tabellen zu materialisieren, die als wiederverwendbares Airflow-DAG fungiert, das von ML-Ingenieuren ausgelöst wird. Diese Lösung hat jedoch Herausforderungen wie keine gleichzeitigen Backfills, hohe Rechenkosten und manuelle Partitionierung. Um diese Herausforderungen anzugehen, entwickelten die Autoren eine v2-Version, indem sie einen zweistufigen Backfill-Ansatz übernahmen, der den Prozess in zwei Schlüsselstufen aufteilt: Feature-Staging und Feature-Förderung.
CdXz5zHNQW_YKhzxUkvad.png