Verständnis der Konzentrierbarkeit in direkter Nash-Optimierung

In diesem Abschnitt stellen wir detaillierte theoretische Beweise vor, die das Direkte-Nash-Optimierungs-Rahmenwerk (DNO) unterstützen. Der Beweis des Satzes 2 umfasst ein zweistufiges Verfahren, das mit einer Regression unter Verwendung des logarithmischen Verlusts beginnt und zu einer Fehlergrenze für den quadratischen Fehler führt. Die Definitionen und Annahmen stützen sich stark auf die Konzentrierbarkeit aus der Theorie des Verstärkungslernens (insbesondere die Arbeiten von Xie et al., 2021, 2023). Während dieser Abschnitt einige Konzepte für Klarheit vereinfacht, liegt eine vollständige theoretische Analyse außerhalb des Umfangs des Papiers. Die Beweise stützen sich auch auf standardmäßige Ergebnisse aus der Regressionstheorie, wobei weitere Referenzen für ein tieferes Verständnis bereitgestellt werden.

hackernoon.com

Understanding Concentrability in Direct Nash Optimization

bsky.app

Hacker & Security News on Bluesky @hacker.at.thenote.app

RSS Hunter

2025-04-17

Create attached notes ...