거대 모델에서 모바일 마법까지: YouTube 실시간 ... 노트

거대 모델에서 모바일 마법까지: YouTube 실시간 생성 AI 효과의 기술

"YouTube Shorts는 모바일 기기에서 고급 생성 AI를 적용하여 크리에이터에게 마법 같고 실시간적인 효과를 제공하는 것을 목표로 합니다. 이는 대규모 AI 모델을 작고 작업별 모델로 압축하여 휴대폰에서 프레임별로 효율적으로 실행할 수 있도록 함으로써 달성됩니다. 이 과정은 다양한 고품질 얼굴 데이터셋을 큐레이션하는 것부터 시작하며, 인구 통계 전반에 걸친 포괄성을 보장합니다. 주요 기술은 강력한 "교사" 모델과 경량 "학생" 모델을 사용하는 지식 증류입니다. 초기에는 StyleGAN2, 이후에는 Imagen과 같은 모델인 교사가 복잡한 생성을 수행하는 반면, UNet 및 MobileNet으로 구축된 학생은 모바일에 최적화됩니다. 훈련에는 교사로부터 이미지 쌍을 생성하고 특정 손실 함수 및 신경망 구조 검색으로 학생을 훈련하는 과정이 포함됩니다. 중요한 과제는 사용자 신원을 보존하는 것으로, 이는 전환 조정 역전(PTI)이라는 기술로 해결됩니다. PTI는 특정 얼굴에 대한 생성기를 미세 조정하여 유사성을 변경하지 않고 잠재 공간에서 편집할 수 있도록 합니다. 온디바이스 솔루션은 Google의 MediaPipe 프레임워크를 사용하여 얼굴 감지, 정렬 및 학생 모델의 원활한 통합을 제공합니다. 이 파이프라인은 33밀리초/프레임보다 빠르게 작동하여 부드러운 사용자 경험을 제공하는 실시간 성능을 달성합니다. 이 기술은 2023년부터 수많은 인기 YouTube Shorts 기능에 적용되어 창의적인 가능성을 향상시켰습니다. 팀은 최신 모델을 통합하고 대기 시간을 줄여 더 넓은 기기 접근성을 목표로 혁신을 계속하고 있습니다."
CdXz5zHNQW_8wndZAykAn.gif