影响强化学习的三个博弈论创新趋势

资源分类

影响强化学习的三个博弈论创新趋势

2019-11-22 |

109 |

原标题：影响强化学习的三个博弈论创新趋势

来源：AI 研习社 [作者：Jesus Rodriguez] 链接：https://www.yanxishe.com/TextTranslation/2247

博弈论在如今AI领域起基础因子作用。特别地，深度强化学习更是将博弈论视为AI领域的一等公民。从单智能体到复杂的多智能体环境，动态博弈化呈现贯穿于AI程序的生命周期中。有趣的事情是深度强化学习的迅速进化也引起博弈论研究的一轮新兴趣。

博弈论和深度强化学习的关系看似平常。智能体通过同环境和其他智能体的交互学习。将奖励引入到深度强化环境是重要的影响智能体学习的方式。并且大部分的深度强化学习模型依然基于传统的博弈论概念，比如纳什均衡，零和游戏，其实存在新方法替代成为AI程序的重要元素。咱们接下来探索三种侵袭进DSL研究的博弈论趋势。

均值场博弈

MFG是博弈论中相对较新的研究领域。作为一系列独立研究论文的一个部分，均值场博弈理论被来自蒙特利尔的Minyi Huang, Roland Malhamé and Peter Caines，来自巴黎的Jean-Michel Lasry and Fields medalist Pierre-Louis Lions发展提出。概念上来讲，均值场博弈折衷了方法和技巧来研究有大量理性玩家的各种不同博弈。这些智能体不仅偏爱他们自身的状态，也偏爱在人群中人群中保持个性。MFG理论研究这些系统的广义纳什均衡。

MFG的经典例子是如何鱼群同方向行驶时相互配合的问题。理论上讲，这种现象很难解释，它根植于鱼如何对近距离的群体进行反应。更特别地，鱼对于并不在意个体的鱼，它在乎周边的一群鱼。将此描述成数学形式，鱼对于集团的反应即是Hamilton-Jacobi-Bellman方程，鱼行动之聚合决定团体移动，即描述为Fokker-Planck-Kolmogorov方程，上述两方程的组合即是MFG理论。

从深度强化学习的观点，MFG在大规模有大量智能体的环境中扮演有趣的角色。目前为止，深度强化学习方式在智能体数量接近无限的环境中无效，如果他们需要处理不确定的概率模型。MFG是一个有趣的方法来建模那类环境。AI研究创业公司Prowler最近做了一些工作评估MFG在大规模，多智能体深度强化学习环境中的效果。

随机博弈

随机博弈追溯到20世纪50年代由诺贝尔经济学奖获得者罗伊德沙普利引入。概念上讲，随机博弈有有限个玩家参与，有有限个状态空间，在每个状态，每个玩家在有限个行动中选择一个行动；最后行动的概率分布决定每个玩家的奖励以及胜利者状态的到概率分布。

典型的随机博弈形式就是吃饭哲学问题，有n+1个哲学家围坐在圆桌周围，米饭在圆桌中央。两个哲学家中间有一只筷子，两个人都能用它，因为桌子是圆的，筷子和哲学家数目一样多；要吃到饭哲学家需要获取同时两个筷子，因此一个哲学家吃饭时，他的两个邻居就不能同时吃饭。哲学家的生活很简单，除了吃饭就是思考，如此循环往复。任务是设计一个协议让所有哲学家存活。

随机博弈已经被应用到多玩家多深度强化学习解决方案中。在多选手多环境中，智能体团体需要评估如何合作与竞争来最大化正向的输出。这通常被叫做探索与利用困境。建立随机博弈动力到深度强化学习中是有效平衡DSL探索与利用的平衡。DeepMind的工作Quake 3用了随机博弈中的一些概念。

进化博弈

进化博弈理论从达尔文的进化理论汲取灵感。EGT的起源可以追溯到1973年约翰·梅纳德·史密斯和乔治·R·普莱斯对竞争的形式化，以及用来预测竞争结果的数学条件。理论上讲，EGT是博弈论理论在此种情况下一众智能体随时间变化有不同策略来保持稳定，有选择和丢弃的进化过程。EGT背后的主要思想是多智能体交互博弈的情况下，玩家的胜出取决于他如何同其他人交互。传统的博弈论关注在静态博弈上，而进化博弈不同的则是关注怎样的动态策略会在整个的进化过程中胜出。

EGT典型的例子是鹰鸽游戏，鹰和鸽在共享资源的情况下进行竞争，它们按下面两种策略中的一种进行博弈：

鹰：开始进攻行为，直到受伤为止或者直到敌人退让

鸽：如果敌人发起进攻迅速反击

<spanmicrosoft yahei',="" 微软雅黑,="" 宋体,="" 'malgun="" gothic',="" meiryo,="" sans-serif;="" font-size:="" 14px;="" font-style:="" normal;="" font-variant:="" font-weight:="" letter-spacing:="" line-height:="" 18px;="" orphans:="" auto;="" text-align:="" start;="" text-indent:="" 0px;="" text-transform:="" none;="" white-space:="" widows:="" word-spacing:="" -webkit-text-stroke-width:="" background-color:="" rgb(255,="" 255,="" 255);="" display:="" inline="" !important;="" float:="" none;"="">如果我们假设(1)只要两个人发起侵略行为,冲突的最终结果,两个人都同样可能受伤,(2)冲突的成本降低个人健身常数C值,(3)当一个鹰遇到一只鸽子,鸽子立刻撤退,鹰获得资源,和(4)当两只斑鸠满足资源共享同样它们之间,鹰鸽博弈的适应度收益可归纳为以下矩阵:

如下是鹰鸽博弈的收益矩阵：