RSS Etsy Engineering | Code as Craft

Ajout de la résilience zonale au cluster Kafka d'Etsy : Partie 1

En 2018, Etsy a migré ses brokers Kafka vers le Google Cloud Platform's Kubernetes Engine. Initialement opérant dans une seule zone, l'équipe a ensuite repensé l'architecture pour la résilience zonale, en répartissant les brokers entre plusieurs zones avec une répartition équilibrée des réplicas de partition. Pour atteindre une migration sans temps d'arrêt, les brokers ont été déplacés en premier lieu en créant des snapshots de disques et en les recréant dans les zones appropriées. La relocalisation des partitions a été gérée manuellement à l'aide de scripts et d'outils pour minimiser le mouvement de données et l'impact. Les tests en production après la migration ont démontré l'efficacité du design multizone, avec un minimum de perturbation pendant une panne de zone. Alors que les coûts de réseau interzone ont augmenté comme prévu, les avantages de la résilience zonale automatisée surpassent les coûts. L'équipe optimise les coûts en exploitant la fonctionnalité de fetching des followers de Kafka et en explorant d'autres approches pour réduire le trafic interzone. Malgré certaines augmentations de coûts, les avantages de la résilience zonale sont significatifs, justifiant l'investissement. La migration a impliqué des étapes complexes, y compris le déplacement de disques et de pods, la relocalisation des partitions et les ajustements de configuration. La planification et l'exécution soignées de l'équipe ont garanti un temps d'arrêt nul et l'intégrité des données tout au long du processus. L'expérience d'Etsy met en évidence l'importance de concevoir pour la résilience dans les services critiques. En adoptant la redondance zonale, l'équipe a atténué les risques liés aux pannes de zone unique et a amélioré la stabilité et la disponibilité de leur cluster Kafka. L'architecture multizone permet à Etsy de gérer le trafic de production accru et les fonctionnalités essentielles pour l'utilisateur, telles que l'indexation de recherche, avec confiance. Les efforts continuels de l'entreprise pour optimiser les coûts démontrent un engagement en faveur de l'équilibre entre la résilience et les considérations financières. L'étude de cas fournit des informations précieuses sur les défis et les stratégies impliqués dans la migration et l'exploitation d'un cluster Kafka hautement disponible dans un environnement cloud multizone.
favicon
etsy.com
Adding Zonal Resiliency to Etsy’s Kafka Cluster: Part 1
Create attached notes ...