RSS Etsy Engineering | 코드는 예술입니다.

에스티의 카프카 클러스터에 지역 복원력을 추가하는 방법: 1부

2018년 에스티(Etsy)는 카프카(Kafka) 브로커를 구글 클라우드 플랫폼(Google Cloud Platform)의 쿠버네티스 엔진(Kubernetes Engine)으로 이전했습니다. 초기에는 단일 존에서 운영되었습니다. 그러나 나중에 팀은 존 내구성을 위해 아키텍처를 재설계하여 여러 존에 브로커를 분산하고 파티션 복제본을 균등하게 분배했습니다. 무중단 마이그레이션을 달성하기 위해, 디스크를 스냅샷으로 만들고 올바른 존에 다시 생성하여 브로커를 이동했습니다. 파티션 재배치는 데이터 이동과 영향을 최소화하기 위해 스크립트와 도구를 사용하여 수동으로 처리했습니다. 생산 환경에서 마이그레이션 후 테스트는 다중 존 설계의 효과를 입증했으며, 존 중단 시 최소한의 중단이 발생했습니다. 예상대로 존 간 네트워크 비용이 증가했지만, 자동 존 내구성의 이점이 비용을 상회했습니다. 팀은 카프카의 팔로워 페칭 기능을 활용하여 비용을 최적화하고 추가적인 접근 방식을 탐색하여 존 간 트래픽을 줄이기 위해 노력하고 있습니다. 비용이 증가했지만, 존 내구성의 이점은 투자에 대한 정당성을 제공합니다. 마이그레이션에는 디스크 및 파드 이동, 파티션 재배치 및 구성 조정이 포함된 복잡한 단계가 포함되었습니다. 팀의 신중한 계획과 실행으로 무중단 및 데이터 무결성을 보장했습니다. 에스티의 경험은 중요한 서비스에 내구성을 설계하는 것의 중요성을 강조합니다. 존 내구성을 채택함으로써, 팀은 단일 존 실패와 관련된 위험을 완화하고 카프카 클러스터의 안정성과 가용성을 개선했습니다. 다중 존 아키텍처는 에스티가 검색 인덱싱과 같은 중요한 사용자 중심 기능을 포함한 생산 트래픽 증가를 신뢰할 수 있게 합니다. 회사의 비용 최적화 노력은 내구성과 재정적 고려 사이의 균형을 맞추는 데 대한 헌신을 보여줍니다. 이 사례 연구는 다중 존 클라우드 환경에서 고가용성 카프카 클러스터를 마이그레이션하고 운영하는 데 관련된 도전과 전략에 대한 귀중한 통찰력을 제공합니다.
favicon
etsy.com
Adding Zonal Resiliency to Etsy’s Kafka Cluster: Part 1
Create attached notes ...