从大型模型到移动魔法:YouTube 实时生成式 AI 效果背后的技术
YouTube Shorts 致力于为创作者提供神奇的实时特效,通过在移动设备上应用高级生成式人工智能来实现。这种实现是通过将大型人工智能模型提炼成更小、更具任务特异性的模型来实现的,这些模型可以在手机上高效地逐帧运行。该过程从策划多样化和高质量的面部数据集开始,确保在人口统计学方面的包容性。一个关键技术是知识蒸馏,使用一个强大的“教师”模型和一个轻量级的“学生”模型。教师模型最初使用 StyleGAN2,后来使用 Imagen 等模型,执行复杂的生成,而学生模型使用 UNet 和 MobileNet 构建,针对移动设备进行优化。训练涉及使用教师模型生成图像对,并使用特定的损失函数和神经架构搜索来训练学生模型。一个关键挑战是保持用户身份,这是通过一种称为枢轴调谐逆(PTI)的技术来解决的。PTI 将一个生成器微调到一个特定的面部,允许在潜在空间中进行编辑而不会改变相似度。设备上的解决方案使用 Google 的 MediaPipe 框架进行面部检测、对齐和学生模型的无缝集成。该管道实现了实时性能,运行速度每帧超过 33 毫秒,为用户提供了流畅的体验。这种技术自 2023 年以来已为众多流行的 YouTube Shorts 功能提供了支持,增强了创作可能性。该团队继续创新,旨在集成更新的模型并减少延迟,以实现更广泛的设备可访问性。