두 개의 타워 너머: 차세대 광고 경량 랭킹 모델을 위한 서빙 스택 재설계...
저자들은 투-타워 모델을 넘어 GPU 기반 추론 단계를 필요로 하는 더 복잡한 신경망을 활용하기 위해 광고 제공 시스템을 업그레이드하는 것을 목표로 했습니다. 주요 과제는 고도로 최적화된 제공 퍼널에서 지연 시간을 증가시키지 않으면서 이 새로운 단계를 통합하는 것이었습니다. 그들은 고가치 후보 특징을 모델 내에 직접 번들로 묶고, 다른 특징들을 위해 고성능 키-값 저장소를 사용하여 특징 가져오기 병목 현상을 해결했습니다. 필터링 및 정렬과 같은 비즈니스 로직은 효율성을 위해 모델로 이동하여 데이터 전송을 최소화했습니다. 멀티 스트림 CUDA 및 커널 퓨전을 포함한 GPU 최적화를 통해 상당한 지연 시간 감소를 달성했습니다. 저자들은 또한 검색 데이터 흐름을 재설계하여 필수 메타데이터를 먼저 반환하고 나머지를 나중에 가져오도록 했습니다. 특징 확장을 위한 병렬 경로를 도입하여 추가적인 지연 시간 개선이 이루어졌습니다. 마지막으로, 로컬 랭킹에서 글로벌 랭킹으로 전환하면서 예상치 못한 지표 변화가 나타났고, 성능 유지를 위해 신중한 분석과 튜닝이 필요했습니다. 이러한 전환은 추천 품질을 향상시키기 위한 상당한 재설계 노력을 나타냅니다.