RSS Блог Google AI
Подписаться
От массивных моделей к мобильному волшебству: Технология за YouTube эффектами генеративного ИИ в реальном времени
YouTube Shorts стремится предоставить авторам волшебные эффекты в реальном времени, применяя продвинутый генеративный ИИ на мобильных устройствах. Это достигается путем преобразования больших ИИ-моделей в более мелкие, специализированные для конкретных задач, которые могут эффективно работать кадр за кадром на телефонах. Процесс начинается с подбора разнообразных и высококачественных наборов данных лиц, обеспечивая инклюзивность по всем демографическим группам. Ключевой техникой является дистилляция знаний, использующая мощную "учительскую" модель и легкую "студенческую" модель. Учитель, изначально StyleGAN2, а затем модели, такие как Imagen, выполняет сложное генерирование, в то время как студент, построенный с использованием UNet и MobileNet, оптимизирован для мобильных устройств. Обучение включает генерацию пар изображений учителем и обучение студента с использованием конкретных функций потерь и поиска нейронных архитектур. Важной проблемой является сохранение идентичности пользователя, решаемой с помощью техники, называемой инверсией с ключевой настройкой (PTI). PTI тонко настраивает генератор под конкретное лицо, позволяя вносить изменения в скрытом пространстве без искажения сходства. Решение для устройств использует фреймворк MediaPipe от Google для обнаружения лиц, выравнивания и бесшовной интеграции студенческой модели. Конвейер обеспечивает производительность в реальном времени, работая быстрее 33 миллисекунд на кадр для плавного пользовательского опыта. Эта технология с 2023 года лежит в основе множества популярных функций YouTube Shorts, расширяя творческие возможности. Команда продолжает внедрять инновации, стремясь интегрировать новые модели и сократить задержку для более широкой доступности на устройствах.