Des modèles massifs à la magie mobile : La technologie derrière les effets d'IA génératifs en temps

Suivre

Des modèles massifs à la magie mobile : La technologie derrière les effets d'IA génératifs en temps réel de YouTube

"Les YouTube Shorts visent à fournir des effets magiques en temps réel pour les créateurs en appliquant des intelligences artificielles génératives avancées sur les appareils mobiles. Cela est réalisé en distillant de grands modèles d'IA en modèles plus petits et spécifiques à une tâche qui peuvent fonctionner efficacement image par image sur les téléphones. Le processus commence par la curation de jeux de données faciaux divers et de haute qualité, garantissant l'inclusivité à travers les démographiques. Une technique clé est la distillation de connaissances, utilisant un modèle "enseignant" puissant et un modèle "élève" léger. L'enseignant, initialement StyleGAN2 et plus tard des modèles comme Imagen, effectue des générations complexes, tandis que l'élève, construit avec un UNet et un MobileNet, est optimisé pour les appareils mobiles. La formation implique la génération de paires d'images à partir de l'enseignant et la formation de l'élève avec des fonctions de perte spécifiques et une recherche d'architecture neuronale. Un défi critique est la préservation de l'identité de l'utilisateur, abordé par une technique appelée inversion de réglage pivot (PTI). Le PTI affine un générateur à un visage spécifique, permettant des éditions dans l'espace latent sans altérer la ressemblance. La solution sur appareil utilise le framework MediaPipe de Google pour la détection, l'alignement et l'intégration transparente du modèle élève. Le pipeline atteint des performances en temps réel, fonctionnant à une vitesse de moins de 33 millisecondes par image pour une expérience utilisateur fluide. Cette technologie a alimenté de nombreuses fonctionnalités populaires de YouTube Shorts depuis 2023, améliorant les possibilités créatives. L'équipe continue d'innover, visant à intégrer de nouveaux modèles et à réduire la latence pour une accessibilité plus large des appareils."

From massive models to mobile magic: The tech behind YouTube real-time generative AI effects research.google

RSS Hunter • 20 août 2025