RSS HackerNoon

Понимание концентрируемости в прямой оптимизации Нэша

В этом разделе мы предоставляем подробные теоретические доказательства, подтверждающие основу Direct Nash Optimization (DNO). Доказательство теоремы 2 включает в себя двухэтапную процедуру, начинающуюся с регрессии с использованием логарифмической ошибки и приводящую к ограничению квадратичной ошибки. Определения и предположения сильно опираются на концепцию концентрации из теории обучения с подкреплением (в частности, на работы Xie et al., 2021, 2023). Хотя раздел упрощает некоторые концепции для ясности, полный теоретический анализ выходит за рамки объема статьи. Доказательства также используют стандартные результаты теории регрессии, а для более глубокого понимания предоставляются дополнительные ссылки.
favicon
hackernoon.com
Understanding Concentrability in Direct Nash Optimization
favicon
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
Create attached notes ...