RSS HackerNoon

Verständnis der Konzentrierbarkeit in direkter Nash-Optimierung

In diesem Abschnitt stellen wir detaillierte theoretische Beweise vor, die das Direkte-Nash-Optimierungs-Rahmenwerk (DNO) unterstützen. Der Beweis des Satzes 2 umfasst ein zweistufiges Verfahren, das mit einer Regression unter Verwendung des logarithmischen Verlusts beginnt und zu einer Fehlergrenze für den quadratischen Fehler führt. Die Definitionen und Annahmen stützen sich stark auf die Konzentrierbarkeit aus der Theorie des Verstärkungslernens (insbesondere die Arbeiten von Xie et al., 2021, 2023). Während dieser Abschnitt einige Konzepte für Klarheit vereinfacht, liegt eine vollständige theoretische Analyse außerhalb des Umfangs des Papiers. Die Beweise stützen sich auch auf standardmäßige Ergebnisse aus der Regressionstheorie, wobei weitere Referenzen für ein tieferes Verständnis bereitgestellt werden.
favicon
hackernoon.com
Understanding Concentrability in Direct Nash Optimization
favicon
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
Create attached notes ...