从大型模型到移动魔法：YouTube 实时生成式 AI 效果背后的技术

关注

从大型模型到移动魔法：YouTube 实时生成式 AI 效果背后的技术

YouTube Shorts 致力于为创作者提供神奇的实时特效，通过在移动设备上应用高级生成式人工智能来实现。这种实现是通过将大型人工智能模型提炼成更小、更具任务特异性的模型来实现的，这些模型可以在手机上高效地逐帧运行。该过程从策划多样化和高质量的面部数据集开始，确保在人口统计学方面的包容性。一个关键技术是知识蒸馏，使用一个强大的“教师”模型和一个轻量级的“学生”模型。教师模型最初使用 StyleGAN2，后来使用 Imagen 等模型，执行复杂的生成，而学生模型使用 UNet 和 MobileNet 构建，针对移动设备进行优化。训练涉及使用教师模型生成图像对，并使用特定的损失函数和神经架构搜索来训练学生模型。一个关键挑战是保持用户身份，这是通过一种称为枢轴调谐逆（PTI）的技术来解决的。PTI 将一个生成器微调到一个特定的面部，允许在潜在空间中进行编辑而不会改变相似度。设备上的解决方案使用 Google 的 MediaPipe 框架进行面部检测、对齐和学生模型的无缝集成。该管道实现了实时性能，运行速度每帧超过 33 毫秒，为用户提供了流畅的体验。这种技术自 2023 年以来已为众多流行的 YouTube Shorts 功能提供了支持，增强了创作可能性。该团队继续创新，旨在集成更新的模型并减少延迟，以实现更广泛的设备可访问性。

From massive models to mobile magic: The tech behind YouTube real-time generative AI effects research.google

RSS Hunter • 2025年8月20日