В нашей недавней статье, опубликованной в Nature Human Behaviour, мы представляем демонстрацию концепции того, что глубокое обучение с подкреплением (RL) можно использовать для поиска экономических политик, за которые люди проголосуют большинством в простой игре. Таким образом, статья решает одну из ключевых проблем в исследованиях ИИ - как обучить системы ИИ, соответствующие человеческим ценностям.
deepmind.google
Human-centred mechanism design with Democratic AI
Create attached notes ...
