Blog de IA de Google RSS
Seguir
Desde modelos masivos a magia móvil: La tecnología detrás de los efectos de IA generativos en tiempo real de YouTube
YouTube Shorts tiene como objetivo ofrecer efectos mágicos y en tiempo real para los creadores aplicando IA generativa avanzada en dispositivos móviles. Esto se logra destilando modelos de IA grandes en modelos más pequeños y específicos para tareas que pueden ejecutarse de manera eficiente fotograma a fotograma en teléfonos. El proceso comienza con la curación de conjuntos de datos de rostros diversos y de alta calidad, asegurando la inclusión en todos los grupos demográficos. Una técnica clave es la destilación de conocimiento, utilizando un potente modelo "maestro" y un modelo "estudiante" ligero. El maestro, inicialmente StyleGAN2 y luego modelos como Imagen, realiza una generación compleja, mientras que el estudiante, construido con UNet y MobileNet, está optimizado para móviles. El entrenamiento implica generar pares de imágenes del maestro y entrenar al estudiante con funciones de pérdida específicas y búsqueda de arquitectura neuronal. Un desafío crítico es preservar la identidad del usuario, abordado con una técnica llamada inversión de ajuste fundamental (PTI). PTI ajusta un generador a un rostro específico, permitiendo ediciones en el espacio latente sin alterar el parecido. La solución en el dispositivo utiliza el framework MediaPipe de Google para la detección, alineación de rostros y la integración perfecta del modelo estudiante. La pipeline logra un rendimiento en tiempo real, operando más rápido que 33 milisegundos por fotograma para una experiencia de usuario fluida. Esta tecnología ha potenciado numerosas funciones populares de YouTube Shorts desde 2023, mejorando las posibilidades creativas. El equipo continúa innovando, con el objetivo de integrar modelos más nuevos y reducir la latencia para una mayor accesibilidad de los dispositivos.