直接纳什优化中的可集中性理解

本节提供支持直接纳什优化 (DNO) 框架的详细理论证明。定理 2 的证明采用两步过程，首先使用对数损失进行回归，然后得出平方误差界限。定义和假设大量借鉴了强化学习理论中的可集中性（特别是 Xie 等人 2021, 2023 的工作）。虽然本节为了清晰起见简化了一些概念，但完整的理论分析超出了本文的范围。证明也利用了回归理论中的标准结果，并提供了额外的参考文献以帮助更深入地理解。