Von massiven Modellen zu mobil... Notiz

Von massiven Modellen zu mobiler Magie: Die Technik hinter den Echtzeit-AI-Effekten von YouTube

YouTube Shorts zielt darauf ab, Erstellern magische Echtzeit-Effekte zu bieten, indem fortschrittliche generative KI auf mobilen Geräten angewendet wird. Dies wird erreicht, indem große KI-Modelle in kleinere, aufgabenbezogene Modelle destilliert werden, die frame-weise und effizient auf Handys laufen können. Der Prozess beginnt mit der Kuratierung vielfältiger und hochwertiger Gesichtsdatensätze, die Inklusivität über demografische Merkmale hinweg gewährleisten. Eine Schlüsseltechnik ist die Wissensdestillation, bei der ein leistungsstarkes "Lehrer"-Modell und ein leichtgewichtiges "Schüler"-Modell verwendet werden. Der Lehrer, zunächst StyleGAN2 und später Modelle wie Imagen, führt komplexe Generierungen durch, während der Schüler, aufgebaut mit UNet und MobileNet, für Mobilgeräte optimiert ist. Das Training beinhaltet die Generierung von Bildpaaren durch den Lehrer und das Training des Schülers mit spezifischen Verlustfunktionen und neuraler Architektursuche. Eine kritische Herausforderung ist die Wahrung der Nutzeridentität, die durch eine Technik namens "Pivotal Tuning Inversion" (PTI) angegangen wird. PTI verfeinert einen Generator für ein bestimmtes Gesicht und ermöglicht Bearbeitungen im latenten Raum, ohne die Ähnlichkeit zu verändern. Die On-Device-Lösung nutzt Googles MediaPipe-Framework zur Gesichtserkennung, -ausrichtung und nahtlosen Integration des Schüler-Modells. Die Pipeline erreicht Echtzeit-Leistung und arbeitet schneller als 33 Millisekunden pro Frame für eine reibungslose Benutzererfahrung. Diese Technologie hat seit 2023 zahlreiche beliebte YouTube Shorts-Funktionen ermöglicht und die kreativen Möglichkeiten erweitert. Das Team entwickelt sich ständig weiter und zielt darauf ab, neuere Modelle zu integrieren und die Latenz für eine breitere Geräteverfügbarkeit zu reduzieren.
CdXz5zHNQW_8wndZAykAn.gif