광고에서의 Multi-gate-Mixture-of-Ex... 노트

광고에서의 Multi-gate-Mixture-of-Experts (MMoE) 모델 아키텍처와 지식 증류…

MMoE (Multi-gate Mixture-of-Experts) 모델 아키텍처는 특화된 하위 네트워크(전문가)에 리소스를 동적으로 할당하여 광고 참여 모델링을 개선합니다. 이는 단일 모델에 비해 효율성, 일반화 능력, 멀티태스크 학습 능력을 향상시킵니다. MMoE는 성능과 비용을 기반으로 전략적으로 선택된 DCNv2, MaskNet, FinalMLP와 같은 다양한 아키텍처의 전문가를 활용합니다. 또한 이 모델은 혼합 정밀도 추론과 경량 게이트 레이어를 사용하여 성능 저하 없이 인프라 비용을 절감합니다. 지식 증류는 기존 프로덕션 모델에서 새로운 모델로 지식을 전송하여 모델을 더욱 향상시킵니다. 이는 제한된 데이터 보존 기간으로 인해 발생하는 성능 격차를 완화하고 새로운 모델이 사용할 수 없는 과거 데이터로부터 학습할 수 있도록 합니다. 증류는 오프라인 및 온라인 지표를 모두 크게 향상시켜 기준 모델인 DCNv2를 능가합니다. 이 기술은 배치 학습 및 기능 업그레이드와 같은 모델 재학습 시나리오 모두에 유용합니다. 그러나 과적합을 방지하기 위해 점진적인 학습 중에는 증류가 제거됩니다. MMoE와 지식 증류를 결합한 접근 방식은 광고 매칭 품질과 사용자 경험을 크게 향상시킵니다. 결과적으로 플랫폼에서 더 관련성 높은 추천과 향상된 사용자 참여를 제공합니다.
CdXz5zHNQW_Eh609KFgJk.png