大規模モデルからモバイルの魔法へ:YouTubeのリアルタイム生成AIエフェクトの裏側にあるテクノロジー
YouTube Shortsは、モバイルデバイスで高度な生成AIを適用することで、クリエイターに魔法のようなリアルタイム効果を提供することを目的としています。これは、大きなAIモデルを小さく、タスク固有のものに凝縮して、スマートフォンでフレームごとに効率的に実行できるようにすることで実現されます。このプロセスは、多様で高品質の顔データセットをキュレーションすることから始まり、人口統計の面で包括性を確保します。重要なテクニックは、知識の蒸留であり、強力な「先生」モデルと軽量な「生徒」モデルを使用します。先生は、StyleGAN2やImagenなどのモデルを使用して複雑な生成を実行し、生徒はUNetとMobileNetを使用してモバイルに最適化されています。トレーニングには、先生から画像ペアを生成し、特定の損失関数とニューラルアーキテクチャ検索を使用して生徒をトレーニングすることが含まれます。重要な課題は、ユーザーのアイデンティティを保持することであり、これはピボタルチューニングインバージョン(PTI)というテクニックで対応されています。PTIは、ジェネレーターを特定の顔にファインチューンし、潜在的な空間で編集を可能にしながら、類似性を変更せずにします。オンプレミスソリューションは、GoogleのMediaPipeフレームワークを使用して、顔検出、整列、生徒モデルのシームレスな統合を実現します。パイプラインはリアルタイムパフォーマンスを実現し、ユーザーにスムーズな体験を提供するために、1フレームあたり33ミリ秒未満で動作します。このテクノロジーは、2023年以降、多数の人気のあるYouTube Shorts機能を動かしており、創造的な可能性を高めています。チームは、さらに革新を続け、新しいモデルを統合し、待ち時間を短縮して、より幅広いデバイスにアクセスできるようにすることを目指しています。