Apprentissage et évaluation efficaces de la représentation visuelle
Etsy utilise la vision par ordinateur pour améliorer l'expérience utilisateur avec des fonctionnalités telles que la recherche visuelle et les recommandations visuellement similaires. Ces fonctionnalités nécessitent des représentations visuelles efficaces et expressives, obtenues grâce à des modèles d'apprentissage automatique. Etsy a initialement utilisé EfficientNetB0 mais a changé pour le plus efficace EfficientFormer-l3 en raison de sa performance supérieure et de ses besoins computationnels plus faibles. Pour améliorer encore l'efficacité, Etsy affine ces backbones pré-entraînés et emploie l'apprentissage multitâche, entraînant les représentations sur plusieurs tâches de classification simultanément. Le schéma d'évaluation comporte trois tâches de recherche de voisins les plus proches pour suivre la progression du modèle et guider la formation. Etsy a également mis en place un schéma d'évaluation expérimental qui exploite l'intelligence artificielle générative, comblant le fossé entre les requêtes textuelles et les images candidates cliquées. Pour garantir une inférence efficace pour les tâches en aval, Etsy utilise un modèle de diffusion stable rapide qui génère des images de haute qualité avec une consommation de mémoire et un temps de latence réduits. En employant ces techniques, Etsy a optimisé ses représentations visuelles pour une utilisation efficace et scalable dans diverses applications.