Comprensión de la Concentrabilidad en la Optimización de Nash Directa

En esta sección, proporcionamos pruebas teóricas detalladas que respaldan el marco de Optimización de Nash Directa (DNO). La prueba del Teorema 2 implica un procedimiento de dos pasos, que comienza con regresión utilizando pérdida logarítmica y conduce a un límite de error cuadrado. Las definiciones y suposiciones se basan en gran medida en la concentrabilidad de la teoría de aprendizaje de refuerzo (específicamente en los trabajos de Xie et al., 2021, 2023). Si bien la sección simplifica algunos conceptos para mayor claridad, un análisis teórico completo está fuera del alcance del artículo. Las pruebas también aprovechan resultados estándar de la teoría de regresión, con referencias adicionales proporcionadas para una comprensión más profunda.

bsky.app

Hacker & Security News on Bluesky @hacker.at.thenote.app

hackernoon.com

Understanding Concentrability in Direct Nash Optimization

RSS Hunter

2025-04-17

Create attached notes ...