Dans cette section, nous fournissons des preuves théoriques détaillées soutenant le cadre d'optimisation de Nash direct (DNO). La preuve du théorème 2 implique une procédure en deux étapes, commençant par une régression utilisant la perte logarithmique et aboutissant à une borne d'erreur au carré. Les définitions et les hypothèses s'inspirent largement de la théorie de la concentrabilité issue de la théorie de l'apprentissage par renforcement (notamment les travaux de Xie et al., 2021, 2023). Bien que cette section simplifie certains concepts pour plus de clarté, une analyse théorique complète dépasse le cadre de cet article. Les preuves s'appuient également sur des résultats standards de la théorie de la régression, avec des références supplémentaires fournies pour une compréhension plus approfondie.
hackernoon.com
Understanding Concentrability in Direct Nash Optimization
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
Create attached notes ...
