直接ナッシュ最適化における集中可能性の理解

このセクションでは、Direct Nash Optimization（DNO）フレームワークを支持する詳細な理論的証明を提供します。定理2の証明は、対数損失を使用した回帰から始まり、平方誤差境界に達する2ステップの手順を踏みます。このセクションの定義と仮定は、強化学習理論（特にXie et al.、2021、2023年の研究）における集中性に大きく依存しています。このセクションでは、明晰化のためにいくつかの概念を簡略化していますが、完全な理論的分析は本論文のスコープを超えています。証明はまた、回帰理論の標準的な結果を活用しており、より深い理解のために追加の参照を提供します。