RSS Etsy Engineering | Code as Craft - TheNote.app

RSS Etsy Engineering | Code as Craft
Suivre

Codeascraft sur Etsy est une collaboration d'artisans où la programmation informatique rencontre l'artisanat traditionnel. Le projet consiste en divers artefacts numériques créés par des programmeurs et des artistes renommés, transformés en bibelots pour les amateurs de technologie. Cela inclut des rendus imprimés d'algorithmes binaires sur des chandeliers en verre, des colliers de numéros binaires façonnés à la main et des portraits de bits numériques encapsulés dans des presse-papiers en verre. Codeascraft vise à combler le fossé entre la technologie et l'artisanat, offrant des collectibles uniques pour les amateurs de code.

Etsy Engineering | Code as Craft etsy.com

RSS codeascraft.com

RSS Hunter • 22 août 2024

Fil de notes

Comprendre le vaste inventaire d'Etsy avec les LLM

Le marché d'Etsy, qui propose des millions d'articles uniques et faits à la main provenant de divers vendeurs, est confronté à des défis dans l'organisation de ses données non structurées. Les méthodes traditionnelles d'extraction des attributs des produits avaient du mal avec la diversité de l'inventaire et les données structurées limitées. Les grands modèles de langage (LLM) ont offert une nouvelle opportunité de transformer les informations non structurées sur les produits en données structurées. Etsy a développé un pipeline évolutif utilisant des LLM, en se concentrant sur l'ingénierie contextuelle pour améliorer la précision de l'extraction des attributs. Ce pipeline exploite les données fournies par les vendeurs, des exemples d'experts et la taxonomie d'Etsy. L'évaluation de la sortie du LLM implique la génération d'« étiquettes argentées » et l'utilisation d'experts du domaine pour l'assurance qualité. Le processus d'inférence extrait les attributs, utilise LiteLLM pour le routage régional et emploie Pydantic pour la validation des données. Des systèmes de surveillance robustes suivent l'état du pipeline et les mesures de performance du modèle. L'application des attributs générés par les LLM aux filtres de recherche a amélioré l'engagement des acheteurs et les taux de conversion. Etsy vise à étendre son utilisation des LLM pour améliorer davantage l'expérience d'achat et de vente. L'objectif ultime est de garantir que les besoins des acheteurs et des vendeurs soient satisfaits avec une efficacité maximale.

Understanding Etsy’s Vast Inventory with LLMs etsy.com

RSS Hunter • 13 oct. 2025

Débloquer des informations plus rapides grâce aux segmentations définies par l'expérimentateur

Etsy utilise des expériences pour tester des idées, comme offrir de la glace gratuite avec les achats, afin de stimuler les ventes. Pour mieux comprendre le comportement des utilisateurs, ils utilisent la segmentation, qui permet une analyse basée sur différents groupes d'utilisateurs. Auparavant, la plateforme d'Etsy avait des segmentations prédéfinies limitées, ce qui entravait une analyse approfondie et ralentissait les informations. L'équipe a développé une bibliothèque de segmentation permettant aux expérimentateurs de définir leurs propres segments, ce qui était un processus lent et complexe. Cette nouvelle approche permet aux utilisateurs de créer des segmentations en utilisant des requêtes SQL et des clés de jointure, ce qui les rend faciles à comprendre et à partager. Avant le déploiement, ces segmentations personnalisées passent par un processus de validation pour garantir leur exactitude et leur sécurité. La génération dynamique de tâches dans le pipeline de données a permis le traitement automatique des nouvelles segmentations sans modification du code. Cette transformation a entraîné une augmentation significative du nombre de segmentations disponibles. Le système amélioré fournit des informations plus rapides et plus approfondies, ce qui permet aux équipes de prendre de meilleures décisions basées sur les données. Dans l'ensemble, ces changements ont rendu le processus d'expérimentation d'Etsy plus flexible et efficace.

Unlocking Faster Insights with Experimenter-Defined Segmentations etsy.com

RSS Hunter • 8 oct. 2025

Création de profils d’acheteurs Etsy avec des LLM

"Etsy utilise des grands modèles de langage (LLM) pour créer des profils d'acheteurs détaillés et anonymes, basés sur l'historique de navigation et d'achat. Ces profils capturent des intérêts nuancés et des missions d'achat, améliorant ainsi la personnalisation pour près de 90 millions d'acheteurs sur la plateforme. L'implémentation technique consiste à récupérer les données d'activité de l'utilisateur, puis à solliciter un LLM pour interpréter ces données en vue de la génération du profil. Pour rendre ce processus évolutif et rentable, Etsy a optimisé les sources de données, réduit le volume de tokens d'entrée, augmenté les tailles de lots et utilisé le traitement parallèle. Ces optimisations ont considérablement réduit le temps et les coûts de génération des profils d'acheteurs. Les profils d'acheteurs générés sont ensuite appliqués pour personnaliser l'expérience de recherche grâce à la réécriture de requêtes et aux filtres de raffinement. La réécriture de requêtes enrichit les recherches des utilisateurs avec des intérêts prédits, tandis que les filtres de raffinement offrent des filtres cliquables basés sur les préférences de l'utilisateur. Etsy mesure le succès de cette personnalisation à travers des métriques telles que l'augmentation du taux de clics et du taux de conversion. Ils maintiennent également la précision des profils en les actualisant dynamiquement en fonction de l'activité de l'utilisateur et en détectant les dérives d'intérêts. Les travaux futurs incluent la résolution du problème du "démarrage à froid" pour les nouveaux utilisateurs en expérimentant avec des profils d'héritage. En fin de compte, Etsy vise à améliorer la découverte et à créer des expériences de recherche plus intuitives pour chaque acheteur."

Building Etsy Buyer Profiles with LLMs etsy.com

RSS Hunter • 3 sept. 2025

Études de cas d'ingénierie de contexte : réponse à des questions spécifiques à Etsy

Ce poste explore l'ingénierie de prompts avec des modèles de langage grand public (LLM) pour l'onboarding assisté par l'IA chez Etsy. L'objectif principal est de vérifier la véracité et la fiabilité des réponses générées par les LLM, en particulier concernant les questions spécifiques à Etsy. L'étude a examiné deux cas d'utilisation : les questions de politique de voyage et de divertissement (T&E) internes et les questions du forum de la communauté des vendeurs Etsy externes. Pour la politique T&E, les LLM ont répondu correctement à environ 86% des questions, mais les 14% restants contenaient des erreurs factuelles ou des déclarations trompeuses, appelées "hallucinations". Des techniques telles que demander au LLM d'admettre son incertitude ou d'expliquer son raisonnement ont été trouvées pour atténuer ces hallucinations. Dans les forums de la communauté Etsy, avec des données plus hétérogènes, la précision des LLM a chuté à environ 72%. Le LLM a mieux performé lorsque les requêtes correspondaient étroitement au libellé des documents de référence. L'étude a également mis en évidence les limitations où même la fourniture de contexte supplémentaire ne résolvait pas certaines questions complexes. Demander des extraits de source a été identifié comme méthode pour signaler les hallucinations potentielles des LLM. Dans l'ensemble, l'ingénierie de prompts montre du potentiel, mais nécessite une élaboration soignée pour garantir une assistance fiable de l'IA dans l'onboarding et la récupération d'informations.

Context engineering case studies: Etsy-specific question answering etsy.com

RSS Hunter • 19 août 2025

Apprentissage automatique dans la modération de contenu chez Etsy

Etsy accorde la priorité à la sécurité et à la confiance dans son marché pour aider les entrepreneurs créatifs. Avec plus de 100 millions d'articles uniques et 7 millions de vendeurs actifs, Etsy emploie une équipe de Confiance et Sécurité consacrée à l'application des politiques et à la suppression de contenu potentiellement violant. Pour améliorer les capacités de détection, Etsy utilise l'apprentissage automatique, y compris des modèles d'apprentissage supervisé, exploitant des signaux multimodaux (textuels et d'images) provenant des annonces. L'architecture du modèle comprend des encodeurs de texte et d'images pour apprendre des représentations et emploie une classe neutre pour les annonces non violentes. Pour résoudre le problème de déséquilibre des données, la perte focale est utilisée. L'évaluation du modèle implique une formation hors ligne et un déploiement en production via des tests A/B. Etsy continue d'itérer et d'améliorer son système de détection en déployant des candidats prometteurs hors ligne et en surveillant les performances. En conséquence, plus de 100 000 violations ont été identifiées et supprimées, complétant d'autres méthodes de détection. Etsy s'engage à utiliser des approches innovantes, y compris les grands modèles de langage, pour renforcer ses mesures de sécurité.

Machine Learning in Content Moderation at Etsy etsy.com

RSS Hunter • 6 août 2024

Amélioration de la prévision, de la surveillance et de l'optimisation de l'utilisation du cloud

La migration d'Etsy vers la plateforme Google Cloud a conduit à la création d'une équipe FinOps dédiée qui stimule l'optimisation de la valeur du cloud à travers des collaborations au sein et en dehors de l'organisation.La méthodologie de prévision de l'équipe repose sur une métrique de Coût par Visite (CPV) pour établir une base de dépenses pour le suivi et l'identification des écarts.Malgré les limitations du CPV, l'équipe FinOps surveille les coûts en utilisant des outils internes et des alertes pour détecter les pics soudains ou la croissance graduelle.La collaboration régulière avec le département des Finances garantit l'alignement entre les coûts réels et les prévisions.Les augmentations de coûts sont rapidement identifiées et atténuées par l'analyse, la collaboration, la validation et le dépannage.Les initiatives d'optimisation des coûts impliquent une collaboration entre les équipes FinOps et d'ingénierie, avec un accent mis sur l'amélioration de l'efficacité plutôt que simplement sur les économies de coûts.Les récentes initiatives d'optimisation comprennent l'optimisation du stockage GCS, l'optimisation des calculs, une automatisation accrue pour le déploiement de modèles et la compression du réseau.L'équipe FinOps accorde la priorité à l'amélioration de la visibilité des dépenses de la plateforme d'apprentissage automatique pour améliorer l'analyse du ROI et identifier les futures opportunités d'optimisation.L'opération indépendante de l'équipe au sein de l'ingénierie et son focus sur l'optimisation globale plutôt que locale contribuent à une pratique FinOps réussie.La culture d'ingénierie robuste d'Etsy, qui met l'accent sur l'efficacité et la qualité artisanale, contribue à l'efficacité de l'équipe FinOps.

Enhancing Cloud Usage Forecasting, Monitoring & Optimizing etsy.com

RSS Hunter • 17 juin 2024

Apprentissage et évaluation efficaces de la représentation visuelle

Etsy utilise la vision par ordinateur pour améliorer l'expérience utilisateur avec des fonctionnalités telles que la recherche visuelle et les recommandations visuellement similaires. Ces fonctionnalités nécessitent des représentations visuelles efficaces et expressives, obtenues grâce à des modèles d'apprentissage automatique. Etsy a initialement utilisé EfficientNetB0 mais a changé pour le plus efficace EfficientFormer-l3 en raison de sa performance supérieure et de ses besoins computationnels plus faibles. Pour améliorer encore l'efficacité, Etsy affine ces backbones pré-entraînés et emploie l'apprentissage multitâche, entraînant les représentations sur plusieurs tâches de classification simultanément. Le schéma d'évaluation comporte trois tâches de recherche de voisins les plus proches pour suivre la progression du modèle et guider la formation. Etsy a également mis en place un schéma d'évaluation expérimental qui exploite l'intelligence artificielle générative, comblant le fossé entre les requêtes textuelles et les images candidates cliquées. Pour garantir une inférence efficace pour les tâches en aval, Etsy utilise un modèle de diffusion stable rapide qui génère des images de haute qualité avec une consommation de mémoire et un temps de latence réduits. En employant ces techniques, Etsy a optimisé ses représentations visuelles pour une utilisation efficace et scalable dans diverses applications.

Efficient Visual Representation Learning And Evaluation etsy.com

RSS Hunter • 7 juin 2024

Macramé : Dénouer le nœud sur l'écran de liste Android d'Etsy

L'écran de liste de l'application Android Etsy, essentiel pour mettre en valeur les produits, était devenu complexe et difficile à maintenir en raison des changements de code rapides. Pour résoudre ce problème, l'équipe a mis en œuvre "Macramé", une nouvelle architecture basée sur des données immuables et une interface utilisateur réactive. Le cœur de l'architecture est un objet d'état immuable représentant le modèle de données, transmis à l'UI via StateFlow. Les mises à jour des données sont gérées par des événements, envoyés à des gestionnaires pour traitement et mises à jour de l'état ou des effets secondaires. Un ListAdapter et un RecyclerView gèrent les changements d'UI asynchrones. La couverture des tests unitaires a significativement augmenté, validant l'utilisation de gestionnaires simples pour la logique métier. Malgré quelque boilerplate et complexité pour les écrans simples, l'architecture améliore la maintenabilité et les performances du code. Le temps jusqu'au premier contenu a diminué de 18%, entraînant une augmentation de l'engagement des utilisateurs. L'équipe Android a étendu l'utilisation de Macramé à d'autres écrans de l'application, tels que le panier et la boutique, écrits en Jetpack Compose.

Macramé: Untangling the Knot on the Etsy Android Listing Screen etsy.com

RSS Hunter • 18 mars 2024

Comment nous avons créé l'onglet 'Deals' dans Swift UI

En juillet 2023, l'équipe des mises à jour de l'application Etsy a entrepris de transformer le flux de mises à jour en "Deals", un hub pour les coupons et les ventes. L'équipe a considéré le développement d'un nouveau onglet à partir de zéro en utilisant des technologies modernes telles que Swift UI et Tuist.En équilibrant l'ambition avec le réalisme, l'équipe a adopté une approche hybride, en utilisant Swift UI pour le développement modulaire et la prévisualisation, tandis qu'elle intégrait le codebase existant en UIKit pour la navigation et d'autres fonctionnalités.La modularité de Swift UI a permis à l'équipe de diviser les vues en composants réutilisables, ce qui a facilité le développement rapide et la prévisualisation efficace avec Tuist.Ils ont mis en œuvre des modèles Decodable pour une analyse API claire et efficace, simplifiant la construction des vues et la gestion des optionnels.Des énumérations de prévisualisation ont été introduites pour simplifier la création de données de simulation pour les vues complexes, leur permettant de construire des modules même avant que le support API ne soit terminé.Cependant, l'intégration avec le codebase existant a posé des défis, en particulier dans les domaines de la navigation et de la favorisation.Pour résoudre cela, ils ont créé une structure @Environment personnalisée, DealsAction, qui a renvoyé la responsabilité de la navigation au ciblage principal tout en maintenant la fonctionnalité callAsFunction() de Swift UI.Les objets d'environnement ont été utilisés pour d'autres fonctionnalités, telles que la favorisation, le suivi des boutiques et la journalisation des métriques de performance.Cette approche hybride a permis à l'équipe de tirer parti des avantages des technologies modernes tout en respectant les contraintes du codebase hérité, aboutissant à un lancement de produit réussi avant la semaine du Cyber Week.

How We Built The Deals Tab in Swift UI etsy.com

RSS Hunter • 5 mars 2024

Couleurs de la scène - Un aperçu des calculs d'impôt

En raison d'obligations fiscales croissantes, les places de marché comme Etsy collectent et reversent maintenant les impôts pour les acheteurs. Etsy s'associe avec Vertex pour les calculs d'impôt basés sur l'emplacement de l'acheteur et du vendeur, la catégorie de produit et les règles fiscales. Lorsqu'un acheteur ajoute un article à son panier, Etsy appelle l'API de demande de citation de Vertex pour déterminer le montant de l'impôt. Lorsque la commande est créée, Etsy utilise l'API de demande de distribution d'impôt pour envoyer des informations de commande et des détails d'impôt à Vertex. Etsy collecte l'impôt des acheteurs et le reverse aux autorités appropriées. Vertex fournit divers formats de rapport, que Etsy importe dans son système de données volumineuses. La mise en correspondance des catégories de produits Etsy avec les catégories d'impôt Vertex a nécessité une collaboration entre les équipes d'ingénierie, de fiscalité et d'analytiques. Pour gérer le trafic API accru, Etsy a mis en place plusieurs instances pour les appels Vertex et la journalisation d'ombre pour simuler le stress sur Vertex et surveiller l'expérience de checkout. Ces améliorations ont garanti un checkout fluide sans délais. Etsy continue d'améliorer sa conception pour soutenir le trafic et le volume de données croissants, avec des plans futurs pour aborder l'analytique, la production de rapports et la synchronisation de la configuration.

Behind the Scenes - A Glimpse to Tax Calculations etsy.com

RSS Hunter • 3 janv. 2024

La Boîte de Mesure AR : La réponse d'Etsy au Grand Mètre Ruban

L'outil de RA amélioré d'Etsy permet aux utilisateurs de visualiser la taille et l'échelle des articles dans leur espace avant de faire des achats. L'outil était initialement limité à l'art mural, mais il a été étendu pour prendre en charge un éventail plus large de catégories avec des options personnalisables. Pour améliorer la précision, Etsy a développé un système de parsing de dimensions robuste qui extrait les dimensions à partir des données fournies par les vendeurs en utilisant des expressions régulières. Ces données sont maintenant stockées sur le serveur pour améliorer les performances et la cohérence. L'expérience AR utilise Apple's SceneKit pour créer un prisme rectangulaire échelonné qui représente l'article, affichant ses dimensions et permettant une rotation et un mouvement interactifs. L'occlusion de l'environnement, activée par les scanners LiDAR sur les nouveaux iPhone et iPad, permet à la boîte de mesure d'interagir de manière réaliste avec les objets du monde réel, offrant aux utilisateurs une compréhension plus précise de la manière dont un article s'intégrerait dans leur espace. Le système de parsing de dimensions amélioré, les mesures 3D et l'occlusion de l'environnement se combinent pour améliorer l'expérience utilisateur, rendant l'outil de RA d'Etsy une ressource précieuse pour la prise de décision éclairée lors de l'achat d'articles uniques et personnalisés.

The AR Measuring Box: Etsy's answer to Big Tape Measure etsy.com

RSS Hunter • 18 sept. 2023

Le paradigme ML en temps réel Si-fine

L'annuel hackathon CodeMosaic d'Etsy a mis en avant un projet ambitieux pour développer un système d'apprentissage automatique étatique et d'apprentissage en ligne. L'équipe visait à mettre à jour les poids du modèle de manière incrémentale, ce qui permettrait de réduire les coûts et d'améliorer les métriques. Le premier jour, ils ont planifié leur approche, se divisant en sous-équipes centrées sur les données d'entraînement en temps réel, un service d'apprentissage et l'évaluation. Le deuxième jour, les équipes ont mis en œuvre leurs plans, rencontrant des défis tels que la mise en forme des données et la sélection du modèle. L'équipe d'évaluation a proposé une compétition pour comparer les performances d'un modèle entraîné en continu avec celles d'un modèle entraîné par lots. Le troisième jour a apporté des présentations et des discussions sur l'impact potentiel, y compris une économie estimée de 212 000 $ par an pour les modèles de publicités seuls. L'équipe a reconnu les obstacles à la production du système, y compris l'infrastructure et l'assurance qualité, mais a exprimé son optimisme quant à l'avenir des architectures ML complexes.

The So-fine Real-time ML Paradigm etsy.com

RSS Hunter • 5 sept. 2023

Exploiter les actions des utilisateurs en temps réel pour personnaliser les publicités Etsy

Le module de personnalisation diversifiable d'Etsy (ADPM) personnalise les modèles de classement en capturant les signaux temporels et de contenu à partir des actions des utilisateurs au cours d'une session d'une heure. Le module ADPM se compose de trois composants : un encodeur adSformer, des représentations pré-entraînées et des représentations apprises en direct. L'encodeur adSformer utilise un bloc de transformateur modifié pour apprendre une représentation profonde de la session de l'utilisateur. Les représentations pré-entraînées exploitent des embeddings d'éléments formés hors ligne, tandis que les représentations apprises en direct sont générées dans les modèles en aval. Ces composants sont concaténés pour créer une représentation utilisateur dynamique qui est intégrée dans les modèles de classement. L'ADPM améliore la pertinence des résultats de recherche sponsorisés en encodant les actions des utilisateurs telles que les requêtes de recherche, les favoris et les achats. En combinant ces trois composants, l'ADPM surpasse les modèles qui utilisent chaque composant indépendamment et offre une robustesse aux changements de distribution des entrées. L'ADPM a été déployé dans le système de recherche sponsorisée d'Etsy, entraînant des gains significatifs dans les évaluations hors ligne et en ligne.

Leveraging Real-Time User Actions to Personalize Etsy Ads etsy.com

RSS Hunter • 14 juil. 2023

Le problème avec les données de série temporelle dans les systèmes de caractéristiques d'apprentissage automatique

L'équipe des systèmes de fonctionnalités d'Etsy a rencontré un problème potentiel lors de l'utilisation de caractéristiques de timestamp dans les modèles d'apprentissage automatique en raison d'une interprétation erronée de la précision entre les frameworks.Le problème provenait du type de données timestamp, qui était interprété différemment par différents frameworks, ce qui menait à un écart potentiel entre la formation et la mise en service.Pour résoudre ce problème, les praticiens de l'apprentissage automatique ont recommandé d'éviter le type timestamp et d'utiliser un type numérique plus basique, comme des Longs.L'équipe a enquêté sur la cause racine, découvrant que le problème allait au-delà de bugs spécifiques et mettait en évidence un problème plus large pour les praticiens de l'apprentissage automatique dans la gestion des caractéristiques de timestamp.L'équipe a réalisé que la complexité des objets datetime et des types timestamp était inutile pour leur cas d'utilisation, car ils n'avaient besoin que de représentations entières à une précision spécifique.Lors d'une réunion du groupe de travail d'architecture, il y a eu un consensus pour représenter les caractéristiques datetime comme des types numériques primitifs afin d'assurer la cohérence entre la formation et l'inférence du modèle.L'équipe a également décidé de standardiser sur les types primitifs de manière plus générale pour promouvoir la cohérence dans tous les contextes de formation.L'équipe a également reconnu le besoin d'une documentation améliorée pour simplifier la transformation des caractéristiques pour les clients.L'incident a mis en évidence les défis potentiels dans l'application des pratiques d'ingénierie logicielle aux besoins spécifiques de l'apprentissage automatique.Alors que l'apprentissage automatique continue de s'intégrer dans les systèmes logiciels, ce genre de nuances deviendra probablement plus courant et nécessitera une révision continue des meilleures pratiques.

The Problem with Timeseries Data in Machine Learning Feature Systems etsy.com

RSS Hunter • 23 juin 2023

De la classification d'images au modèle multitâche : Construction de la fonction de recherche par image d'Etsy

La fonction de recherche par image d'Etsy permet aux utilisateurs de rechercher des articles similaires à des photos qu'ils téléchargent. Cette fonctionnalité utilise un modèle d'apprentissage automatique pour convertir les images en représentations numériques appelées embeddings, qui sont ensuite utilisées pour les recherches de similarité.Le modèle est basé sur un réseau de neurones convolutionnel (CNN) pré-entraîné qui a été affiné pour la tâche d'apprentissage des embeddings d'images. Le modèle est entraîné en utilisant une approche d'apprentissage multitâche, où il apprend à effectuer plusieurs tâches de classification simultanément, y compris la catégorie d'articles, la couleur et les attributs.Pour réduire les biais en faveur des images de produits de haute qualité, le modèle est également entraîné sur un ensemble de données de photos de révisions soumises par les utilisateurs.Le pipeline d'inférence implique la construction d'un index de voisins les plus proches approximatifs (ANN) en utilisant un algorithme de fichier inversé (IVF) pour optimiser les performances de recherche.Les photos de requête sont inférées en temps réel en utilisant la technologie d'inférence GPU pour garantir des temps de réponse rapides.La fonction de recherche par image a été initialement développée pendant le hackathon CodeMosaic d'Etsy et a depuis été mise en œuvre comme fonctionnalité de production.La fonctionnalité aide les acheteurs à découvrir des articles uniques et spéciaux sur Etsy en leur offrant une nouvelle manière intuitive de rechercher des produits similaires.L'architecture du modèle et l'objectif d'apprentissage ont été optimisés pour produire des résultats visuellement cohérents tout en maintenant l'exactitude catégorielle.L'ajout de photos de révisions à l'ensemble de données d'entraînement a significativement amélioré la capacité du modèle à mettre en surface des résultats pertinents à partir de photos soumises par les utilisateurs.La fonctionnalité a été bien accueillie par les utilisateurs et a contribué à une augmentation de l'engagement et de la satisfaction des acheteurs sur Etsy.

From Image Classification to Multitask Modeling: Building Etsy’s Search by Image Feature etsy.com

RSS Hunter • 26 mai 2023

Comment nous avons créé un classeur canonique multi-tâches pour les recommandations sur Etsy

Etsy emploie des modules de recommandation pour présenter des éléments pertinents aux utilisateurs, chacun alimenté par un classeur qui évalue la pertinence des éléments candidats. Traditionnellement, Etsy utilisait des classeurs spécifiques à chaque module, mais cette approche est devenue ingérable avec l'augmentation du nombre de modules.Pour résoudre ce problème, Etsy a développé des classeurs canoniques, qui sont formés pour alimenter plusieurs modules, garantissant l'efficacité et la cohérence. Le premier classeur canonique s'est concentré sur la fréquence de visite, en utilisant le taux de favoris comme substitut pour les révisites.La structure du modèle du classeur de fréquence comprenait une architecture partagée-inférieure avec des couches distinctes pour les prédictions de favoris et d'achats, combinées en un score de classement final. Le classeur a également intégré une caractéristique de nom de module et équilibré les données d'entraînement entre les modules pour garantir la généralisabilité.Malgré la formation sur des données provenant d'un sous-ensemble limité de modules, le classeur canonique a surpassé les classeurs spécifiques aux modules sur les modules non utilisés pour la formation, démontrant son efficacité comme solution canonique.Le classeur de fréquence a amélioré les taux de favoris sur les pages d'éléments et les pages d'accueil, avec des améliorations significatives des métriques d'achat et d'autres indicateurs d'engagement.Depuis son lancement, Etsy a déployé le classeur canonique sur plusieurs modules à travers les plateformes web et d'application.À l'avenir, Etsy prévoit d'itérer sur le classeur de fréquence, en intégrant plus de contexte et en explorant de nouvelles architectures.Le classeur canonique représente un changement dans la stratégie de recommandation d'Etsy, offrant des recommandations plus personnalisées et une expérience utilisateur plus cohérente à travers les plateformes et les modules.

How We Built a Multi-Task Canonical Ranker for Recommendations at Etsy etsy.com

RSS Hunter • 18 avr. 2023

Barista : Permettre une plus grande flexibilité dans le déploiement des modèles d'apprentissage automatique

La mise en production de modèles d'apprentissage automatique (AA) implique une transition de l'expérimentation à des contraintes d'ingénierie rigoureuses, présentant des défis pour trouver un équilibre entre la flexibilité et la stabilité.L'équipe de la plateforme d'AA d'Etsy utilise Kubernetes pour la mise à l'échelle et l'orchestration des modèles, avec Barista gérant les déploiements de modèles.Initialement, les configurations de modèles étaient gérées comme du code, offrant un contrôle strict mais entraînant des retards et des goulots d'étranglement.Pour résoudre ces problèmes, les configurations ont été dissociées et stockées dans une base de données, permettant des changements instantanés via une CLI.Cependant, la CLI nécessitait une expertise technique, ce qui a conduit au développement d'une interface web conviviale pour la gestion des modèles.L'interface web de Barista offre un contrôle exhaustif sur les déploiements, s'intègre à diverses API et simplifie le processus de déploiement.L'augmentation des taux de déploiement des modèles a suscité des inquiétudes quant aux coûts et aux mauvaises configurations, menant à la mise en œuvre de Kube Downscaler pour réduire automatiquement les déploiements inutilisés.L'accent est passé de la satisfaction des besoins techniques de base à la construction d'un produit complet qui permet aux utilisateurs d'AA de travailler efficacement.Les efforts actuels visent à améliorer la cohésion des services et l'automatisation pour optimiser les paramètres d'infrastructure et réduire encore les coûts de cloud.Alors que la pratique d'AA se développe, la plateforme doit continuer à évoluer pour répondre aux besoins croissants de l'équipe.

Barista: Enabling Greater Flexibility in Machine Learning Model Deployment etsy.com

RSS Hunter • 14 avr. 2023

Docs-as-code sur Etsy

Les documents en tant que code intègrent la documentation dans le développement en utilisant les mêmes outils et les mêmes procédures que le code. Il met l'accent sur la versionning, la mise en page en texte brut et l'automatisation pour améliorer la gestion de la documentation.L'outil Docsbuilder d'Etsy emploie Markdown, Docusaurus et des workflows GitOps pour la création et la maintenance de la documentation.Docsbuilder automatise la création du site, la validation et le déploiement avec Google Cloud Build et des tests d'intégration.Docsbuilder permet la découverte avec un moteur de recherche et un composant de navigation pour les sites fréquemment utilisés.Etsy héberge actuellement plus de 6,2 k pages sur 150 sites Docsbuilder.L'objectif du docs-as-code est d'améliorer la qualité, l'efficacité et la fiabilité de la documentation.Les principes clés incluent le traitement de la documentation comme un citoyen de premier rang, la versionning dans Git, l'utilisation de formats de texte brut et l'automatisation des workflows.Docs-as-code encourage les développeurs à aborder la documentation avec la même rigueur que la programmation.Etsy prévoit d'améliorer la découverte, la navigation et l'engagement du contenu au sein de Docsbuilder.Docs-as-code favorise une approche équilibrée entre la documentation et la programmation, menant à une documentation organisée et maintenable.

Docs-as-code at Etsy etsy.com

RSS Hunter • 13 avr. 2023

Étendre les paiements Etsy avec Vitess : Partie 3 – Réduire le risque de coupure

Les paiements Etsy ont déplacé 40 milliards de lignes à travers 23 tables dans un environnement fragmenté géré par Vitess, en utilisant des vindexes pour le fractionnement des données. Cet article se concentre sur les erreurs qui peuvent survenir pendant la transition.Comprendre les modes de transaction de Vitess est crucial. Le mode unique maintient l'atomicité, mais le mode multiple peut entraîner des validations partielles. Le mode de validation en deux phases est expérimental et non recommandé.La réplication inverse VReplication assure la synchronisation des données entre les espaces de clés non fragmentés et fragmentés après la transition. Elle peut casser en raison de l'application de clés uniques, nécessitant des réparations telles que la suppression de lignes ou des mises à jour manuelles de la colonne Pos.Les requêtes de dispersion, où la clé de fractionnement est omise dans la clause WHERE, peuvent entraîner un volume de requête excessif et des pannes potentielles. Vitess propose désormais un drapeau --no_scatter pour les empêcher.Les requêtes incompatibles peuvent échouer après la transition. Des tests exhaustifs dans un environnement de développement sont essentiels pour identifier et résoudre ces requêtes.D'autres erreurs potentielles incluent celles liées aux constructions SQL non prises en charge, qui peuvent être résolues en mettant à jour vers des versions plus récentes de Vitess.Malgré ces risques, les transitions sont généralement réversibles, à condition que la réplication inverse VReplication fonctionne correctement. Cependant, l'impact de tout dysfonctionnement doit être soigneusement considéré.

Scaling Etsy Payments with Vitess: Part 3 – Reducing Cutover Risk etsy.com

RSS Hunter • 22 févr. 2023

Étendre les paiements Etsy avec Vitess : Partie 2 – La migration "transparente"

Etsy a migré 40 milliards de lignes de bases de données non fragmentées vers un environnement fragmenté géré par Vitess.La migration a impliqué la redistribution des données, la vérification de leur intégralité et le basculement des lectures/écritures.La mise en place était cruciale pour tester et renforcer la confiance dans le processus.VReplication a permis un basculement en douceur des lectures/écritures et la cohérence des données.L'augmentation inattendue du volume de requêtes a été résolue avec CreateLookupVindex, empêchant les requêtes dispersées.Des index secondaires Vindexes ont été appliqués pendant la migration pour optimiser l'identification des fragments.En raison des limitations de maintenance des Vindexes, les écritures ont été rétablies à la source après l'externalisation des Vindexes.Les spécifications du cluster de destination ont été mises à niveau pour gérer la charge après l'externalisation des Vindexes.La migration a été achevée sans perturbation ni temps d'arrêt, grâce à des tests exhaustifs et une planification soignée.Ceci était la deuxième partie d'une série sur la fragmentation des données de paiement d'Etsy avec Vitess.

Scaling Etsy Payments with Vitess: Part 2 – The “Seamless” Migration etsy.com

RSS Hunter • 22 févr. 2023

Étendre les paiements Etsy avec Vitess : Partie 1 – Le modèle de données

Les bases de données de paiement d'Etsy ont rencontré des problèmes de scalabilité en 2020, nécessitant une migration vers un environnement fragmenté géré par Vitess.Le projet a impliqué le déplacement de 40 milliards de lignes de quatre bases de données dans un seul environnement fragmenté, en utilisant des vindexes Vitess pour la fragmentation.La première phase a consisté à migrer l'infrastructure du grand livre des vendeurs, qui avait un modèle de données idéal pour la fragmentation.La deuxième phase s'est concentrée sur la réduction de la charge sur la base de données de paiements primaire, qui avait un modèle de données complexe nécessitant une approche plus adaptée.Deux options ont été considérées pour la deuxième phase : remodeler le modèle de données de base ou trouver des shardifiers dans le modèle existant.La deuxième option a été choisie en raison des contraintes de temps et de l'importance de maintenir la fiabilité.L'équipe a utilisé les clés primaires et étrangères existantes comme shardifiers, réduisant le travail par rapport à la première phase.Les fonctionnalités de re-sharding de Vitess offrent une flexibilité pour les ajustements futurs du design des shards.Les index secondaires dans Vitess atténuent les limitations du modèle de données non idéal, permettant la ciblage des shards sans utiliser le shardifier dans les requêtes.Cette migration a amélioré la scalabilité de 60% et a laissé place à une croissance future.

Scaling Etsy Payments with Vitess: Part 1 – The Data Model etsy.com

RSS Hunter • 22 févr. 2023

Ajout de la résilience zonale au cluster Kafka d'Etsy : Partie 2

Initialement, les mises à niveau de la plateforme pour les brokers Kafka étaient fastidieuses et chronophages, nécessitant des heures de surveillance manuelle et d'attente. Pour améliorer cela, une architecture multi-zone a été mise en œuvre, permettant à plusieurs brokers d'être mis à jour simultanément sans affecter la disponibilité. Cependant, la stratégie de mise à jour en roulage native de Kubernetes n'était pas appropriée en raison de la distribution zonale des réplicas.Une logique personnalisée a été développée pour contrôler les mises à jour, permettant à plusieurs brokers dans une zone d'être redémarrés en parallèle. Cela a été mis en œuvre en tant que travail par lots Kubernetes pour garantir la fiabilité et prévenir les problèmes de déploiement accidentels.Les tests en production ont montré que, avec un parallélisme de trois, les mises à niveau pouvaient être terminées en environ deux heures. Bien que le redémarrage de tous les brokers dans une zone simultanément était techniquement possible, cela a été évité pour éviter d'accroître la charge sur les brokers restants.L'architecture multi-zone et la logique de mise à jour personnalisée ont considérablement réduit le temps de mise à niveau, passant de sept heures à environ deux heures. Cette amélioration n'a pas seulement économisé du temps, mais a également réduit la peine et le stress associés aux mises à niveau.Le nouveau processus a garanti des mises à niveau rapides et efficaces, avec un impact minimal sur le cluster Kafka. Le succès du projet a été mesuré non seulement par la réduction du temps, mais également par la facilité et la tranquillité d'esprit qu'il a apportée pendant les mises à niveau.

Adding Zonal Resiliency to Etsy’s Kafka Cluster: Part 2 etsy.com

RSS Hunter • 9 févr. 2023

Ajout de la résilience zonale au cluster Kafka d'Etsy : Partie 1

En 2018, Etsy a migré ses brokers Kafka vers le Google Cloud Platform's Kubernetes Engine. Initialement opérant dans une seule zone, l'équipe a ensuite repensé l'architecture pour la résilience zonale, en répartissant les brokers entre plusieurs zones avec une répartition équilibrée des réplicas de partition.Pour atteindre une migration sans temps d'arrêt, les brokers ont été déplacés en premier lieu en créant des snapshots de disques et en les recréant dans les zones appropriées. La relocalisation des partitions a été gérée manuellement à l'aide de scripts et d'outils pour minimiser le mouvement de données et l'impact.Les tests en production après la migration ont démontré l'efficacité du design multizone, avec un minimum de perturbation pendant une panne de zone. Alors que les coûts de réseau interzone ont augmenté comme prévu, les avantages de la résilience zonale automatisée surpassent les coûts.L'équipe optimise les coûts en exploitant la fonctionnalité de fetching des followers de Kafka et en explorant d'autres approches pour réduire le trafic interzone. Malgré certaines augmentations de coûts, les avantages de la résilience zonale sont significatifs, justifiant l'investissement.La migration a impliqué des étapes complexes, y compris le déplacement de disques et de pods, la relocalisation des partitions et les ajustements de configuration. La planification et l'exécution soignées de l'équipe ont garanti un temps d'arrêt nul et l'intégrité des données tout au long du processus.L'expérience d'Etsy met en évidence l'importance de concevoir pour la résilience dans les services critiques. En adoptant la redondance zonale, l'équipe a atténué les risques liés aux pannes de zone unique et a amélioré la stabilité et la disponibilité de leur cluster Kafka.L'architecture multizone permet à Etsy de gérer le trafic de production accru et les fonctionnalités essentielles pour l'utilisateur, telles que l'indexation de recherche, avec confiance.Les efforts continuels de l'entreprise pour optimiser les coûts démontrent un engagement en faveur de l'équilibre entre la résilience et les considérations financières.L'étude de cas fournit des informations précieuses sur les défis et les stratégies impliqués dans la migration et l'exploitation d'un cluster Kafka hautement disponible dans un environnement cloud multizone.

Adding Zonal Resiliency to Etsy’s Kafka Cluster: Part 1 etsy.com

RSS Hunter • 31 janv. 2023

Amélioration du soutien à l'apprentissage en profondeur sur la plateforme d'apprentissage automatique d'Etsy

Le service de modèles de classement d'apprentissage automatique à grande échelle pose des défis en raison de la haute latence et des coûts computationnels élevés. Pour répondre à cela, l'équipe de classement de recherche d'Etsy a créé Caliper, un outil pour le retour d'expérience de latence précoce pendant le développement du modèle. En isolant la composante d'inférence, Caliper permet d'ajuster efficacement les paramètres comme la taille du lot. De plus, une visibilité accrue grâce au traçage distribué et aux journaux d'accès Envoy a permis à l'équipe d'identifier un goulot d'étranglement dans la transmission de caractéristiques. En utilisant des techniques de compression, la taille de la charge utile a été significativement réduite, entraînant une diminution de 68% des taux d'erreur et une baisse de 50 ms de la latence p99. Pour se préparer à de futures complexités, l'équipe explore d'autres optimisations de la taille de la charge utile et améliore Caliper pour un réglage automatique des performances. Ces avancées ont permis à l'équipe de classement de recherche d'Etsy de servir efficacement les modèles d'apprentissage automatique à grande échelle, garantissant des résultats de recherche rapides et précis pour les utilisateurs d'Etsy.

Improving Support for Deep Learning in Etsy's ML Platform etsy.com

RSS Hunter • 26 janv. 2023