AI 领域博弈论入门

2019-10-14 |

97 |

原标题：刺破自动驾驶泡沫，汽车产业链眼下究竟更看重什么？| 2019全球智能驾驶峰会

来源：AI研习社链接：https://www.yanxishe.com/TextTranslation/2159

简介

博弈论（Game Theory）是数学的一个分支，用来模拟在有预定规则和结果的情况下不同参与者(players)的策略互动。

博弈论在人工智能的不同领域都有所应用：

多代理AI系统

模仿和强化学习

生成对抗网络(GANs)中的对抗训练

博弈论同样可以被应用在描述形容我们日常生活和机器学习模型中的很多情况（见图一）。

咱们拿例子来说，一个大家都知道经典分类算法SVM可以用两人游戏来解释：一个玩家挑战另一个玩家来找到能提供最困难点来分类的最佳超平面。游戏然后收敛成为一个两个玩家之间策略能力折中权衡的解决方案（比如，第一个玩家挑战第二个人对困难的数据点进行分类的能力以及第二玩家识别最佳决策边界的能力如何）。

图一：博弈论应用

博弈论

博弈论可以根据游戏类型分为5种主要类型：

● 合作 vs 非合作游戏: 在合作游戏中，为了尽最大可能赢得游戏，参与者可以建立联盟（比如谈判）. 在非合作游戏中，参与者不能结成同盟 (比如战争).

● 对称 vs 非对称游戏：在对称游戏中，所有参与者有相同的目标，只是为实现目标而实施的策略将确定谁赢得了游戏（例如国际象棋）。在非对称游戏中，参与者的目标不同或者冲突。

● 完美信息 vs 非完美信息游戏：在第一种情形下，所有的玩家能看到其他玩家的举动（国际象棋）。相反，在非完美信息游戏中，其他玩家的举动行为是被隐藏的（德州扑克，炸金花，斗牛，掼蛋。。。）

● 同时 vs 顺序游戏：同时游戏中，不同的玩家可以同时采取行动。在顺序游戏中，每个玩家都知道其他玩家之前的动作（棋盘游戏）。

● 零和 vs 非零和游戏：在零和游戏中，一个玩家获得意味着其他玩家的损失。在后种情况，多个玩家可以从另一个玩家的收益中获利。

博弈论的不同方面在人工智能广泛应用，在这我们介绍纳什均衡（Nash Equilibrium，就是“美丽心灵”里面那个瓜娃子整的），逆博弈论（Inverse Game Theory）。顺便再来点实战案例。

如果你想在Python中实现博弈论算法，阔以从Nashpy library开始。

纳什均衡

纳什均衡是一种情况：在这种情形下，所有游戏玩家同意找不到比此情此景实际情况更好的解决方案。基于其他参与者的决定，没有一个玩家具有改变当前策略的优势。

我们上文的例子中，纳什均衡的一个例子是SVM分类器同意使用具体哪个超平面来分类数据。

用来解释纳什均衡的最常见例子之一是囚徒困境。假设有两名罪犯被捕，他们被关在牢房里，彼此之间没有任何交流的可能（图2)。

● 如果两个囚犯中的任何一个承认另一个犯了罪，第一个将被释放，而另一个将被判处10年监禁。

● 如果他们俩都不认罪，他们每个人只待一年监禁。

● 如果他们都认罪，他们都将被判处5年徒刑。

图2：收益矩阵

在这种情况下，当两个罪犯互相背叛时，就达到了纳什均衡。

找出游戏是否达到纳什均衡的一种简单方法是向对手透露你的策略。如果透露之后他们都没有改变策略，那么纳什均衡得到证明。

不幸的是，对称游戏比非对称游戏更容易实现纳什均衡。实际现实应用和人工智能中，非对称游戏是最常见的。

逆博弈论

博弈论旨在了解游戏的动态，以优化其玩家可能获得的结果。相反，逆向游戏理论旨在根据玩家的策略和目标来设计游戏。逆向博弈论在设计AI agents 环境中起着重要作用。

图三： GAN 架构【3】

生成模型将输入作为某些特征，检查它们的分布并尝试了解它们是如何产生的。生成模型的一些示例是隐马尔可夫模型（HMMs）和受限玻尔兹曼机（RBMs）。

判别模型改为使用输入特征来预测样本可能属于哪个类别。支持向量机（SVM）是判别模型的一个示例。

在GAN中，生成模型使用输入特征来创建新样本，这些样本旨在非常类似于原始样本的主要特征。然后，将新生成的样本与原始样本一起传递给判别模型，该模型必须识别哪些样本是真实的，哪些样本是假的【4】。GAN的一个示例应用是生成图像，然后区分真假（图4）。

图4： NVIDIA GAN!生成的图片[5]

这个过程非常类似于游戏的动态过程。在这个游戏中，我们的玩家（两个模型）互相挑战。第一个创建伪造的样本以使另一个混淆，而第二个创建者试图越来越好地识别正确的样本。

反复重复此游戏，并在每次迭代中更新学习参数（learning parameters），以减少总损失(overall loss)。

这个过程将一直持续到达到纳什均衡为止（这两个模型精通执行任务，无法再进行改进了）。

多Agents强化学习（Multi-Agents Reinforcement Learning， MARL)

强化学习（RL）旨在使agent（我们的“模型”）通过与环境（可以是虚拟的或真实的）交互来学习。

RL最初是为了遵循Markov决策过程(Markov Decision Processes)而开发的。在这种情况下，代理人处于随机的固定环境中，并试图通过奖励/惩罚机制来学习策略。在这种情况下，证明了agent将收敛到一个满意的策略。

但是，如果将多个agents放置在同一环境中，则此条件不再成立。实际上，在之前agent学习仅依赖于agent与环境之间的相互作用，而现在，它也依赖于agents之间的相互作用（图5）。

想象一下，我们正在尝试使用一组人工智无人驾驶汽车来改善城市的交通流量。每个汽车都可以与外部环境完美互动，但是如果我们想让汽车作为一个整体来考虑，事情就会变得更加复杂。例如，一辆汽车可能会与另一辆汽车发生冲突，因为对于这两种汽车而言，沿着某条路线行驶都是最方便的。

这种情况可以使用博弈论轻松建模。在这种情况下，我们的车辆将代表不同的参与者，纳什均衡代表不同车辆之间协作的平衡点。

图5：多agents强化学习网球[6]

对具有大量agents的系统进行建模可能会变得非常困难。这是因为，增加agents的数量会使不同的agent彼此交互的可能方式指数级别地增加。

在这些情况下，用“Mean Field Scenarios” (MFS)为多Agent强化学习模型建模可能是最好的解决方案。实际上，通过将所有agents都具有相似奖励函数的先验假设作为假设，Mean Field Scenarios可以降低MARL模型的复杂性。

联系方式

想看作者的最新文章和实战项目，可以看看他的英文简书，也可以订阅他的邮件（瓜娃子长得很帅，侧颜不错，文章乱七八糟的啥都覆盖）。

全方位无死角联系作者:

Personal Blog

Personal Website

Medium Profile

GitHub

Kaggle

参考文献：

[1] Game Theory & Optimal Decisions. Accessed at: http://euler.fd.cvut.cz/predmety/game_theory/

[2] Quantum Probabilistic Models Revisited: The Case of Disjunction Effects in Cognition. Catarina Moreira, et al. Researchgate. Accessed at: https://www.researchgate.net/publication/304577699_Quantum_Probabilistic_Models_Revisited_The_Case_of_Disjunction_Effects_in_Cognition/figures?lo=1

[3] GAN Deep Learning Architectures — review, Sigmoidal. Accessed at: https://sigmoidal.io/beginners-review-of-gan-architectures/

[4] Overview: Generative Adversarial Networks — When Deep Learning Meets Game Theory. AHMED HANI IBRAHIM. Accessed at: https://ahmedhanibrahim.wordpress.com/2017/01/17/generative-adversarial-networks-when-deep-learning-meets-game-theory/comment-page-1/

[5] Nvidia AI Generates Fake Faces Based On Real Celebs - Geek.com. Accessed at: https://www.geek.com/tech/nvidia-ai-generates-fake-faces-based-on-real-celebs-1721216/

[6] David Brown, Tennis Environment — Multi-Agent Reinforcement Learning. Accessed at: https://github.com/david-wb/marl

发起：唐里校对：唐里审核：鸢尾参与翻译（1人）：呀啦呼

英文原文：Game Theory in Artificial Intelligence

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：人体姿态估计的过去、现在和未来

下一篇：自动化视觉跟踪

用户评价