직접 내시 최적화에서의 집중 가능성 이해

이 섹션에서는 Direct Nash Optimization(DNO) 프레임워크를 지원하는 상세한 이론적 증명을 제공합니다. 정리 2의 증명은 로그 손실을 사용한 회귀부터 시작하여 제곱 에러 경계에 이르는 2단계 절차를 따릅니다. 정의 및 가설은 강화 학습 이론(특히 Xie et al., 2021, 2023의 작품)에서 concentrability에 크게 의존합니다. 이 섹션에서는 개념을 분명하게 하기 위해 일부를 간소화했지만, 완전한 이론적 분석은 본 논문의 범위를 벗어납니다. 증명은 또한 회귀 이론의 표준 결과를 활용하며, 더 깊은 이해를 위해 추가 참조를 제공합니다.