无锡电子商务网站建设,wordpress主题后门检查,自己做网站app,哪些网站可以免费发帖做推广转自 ∑ 沈浩老师最近看到一篇不错的文章#xff0c;让沈雨尘帮助整理一下#xff0c;与同学们分享#xff01;概览什么是博弈论#xff1f;它是如何应用到人工智能(AI)中的#xff1f;人工智能中的博弈论是一个迷人的概念#xff0c;每个人应该有一定了解。我们希望通过… 转自 ∑ 沈浩老师最近看到一篇不错的文章让沈雨尘帮助整理一下与同学们分享概览什么是博弈论它是如何应用到人工智能(AI)中的人工智能中的博弈论是一个迷人的概念每个人应该有一定了解。我们希望通过使用案例说明对博弈论进行了深入研究并将其关联到人工智能方面。引言让我们从一个简短的问题开始 —— 你是否认识下图中的两人相信你一定认识其中的一个。对于大多数早期数学爱好者来说电影《美丽心灵》一定会烙印在我们的记忆中而诺贝尔经济学奖得主罗素·克劳(上图左)就在电影中扮演主角之一的约翰·纳什。在那个标志性的场景“不要追求金发女郎”中约翰·纳什引用道“….the best outcome would come when everyonein the group is doing what’s best for himself and the group.”当团队中的每一个人都在做对自己和团队有利的事情时就会得到最好的结果。许多人认为这标志着著名的“纳什均衡”的发现。这的确是标志性的但并不完全正确。实际上这个场景描绘的是“帕累托最优”的发现过程但它仍有助于我们理解博弈论。在本文我们将鸟瞰博弈论并将讨论如何将博弈论应用于人工智能领域的基本思想。我们将以即使是初学者和非技术人员也可以理解的方式进行解释。目录什么是博弈论博弈论中的纳什均衡博弈的种类人工智能中的博弈论博弈论小测验什么是博弈论所以什么是博弈论相信你一定接触过这个概念但可能从没有真正深入其中。不过现在的人工智能领域中这是个有趣且具有启发性的主题。让我们先给博弈论一个正式的定义。“博弈论可以被定义为 —— 对两个或两个以上的理性Agents或参与者之间可能的相互作用的建模。”本文中我们将Agent理解为一个主体行为人。在博弈论中我们必须强调“理性”这个关键词因为它是博弈论的基础。但是“理性”究竟是什么意思我们可以简单的将“理性”理解为每个主体(Agent)都知道其他主体也是理性的并且拥有与该主体同等的理解与知识水平。此外“理性”也意味着在考虑到其他主体行为前提下该主体总倾向于得到更高的报酬或回报。简而言之每个主体都是自私的并试图将回报最大化。“我知道你知道我知道你是理性的”(左)“是的我知道”(右)既然我们了解了“理性”的意义让我们来处理一些与博弈论有关的关键词博弈一般来说博弈包括一系列的玩家、动作、策略和最终的报酬例如拍卖、国际象棋、政治问题等等玩家玩家是参与博弈的理性主体。例如拍卖中的竞标者玩石头剪刀布的玩家参加选举的政治家等报酬报酬是所有玩家在达到某种结果时的得到的回报它可以是积极的也可以是消极的。正如我们之前所讨论的每个主体都是自私的希望得到最大化的报酬“选举中党派得到的席位数”(左)“成功的手术台数”(中)“是否能成为族群领袖(右)”博弈论中的纳什均衡纳什均衡是人工智能博弈论的“基石”。纳什均衡是一个由玩家选择的行为“没有一个玩家愿意改变他们的行动不使自己处于纳什均衡意味着没有发挥到最佳状态。一旦玩家违背纳什均衡就意味着对方将有机会改变策略使你的收益变差。”或可以如此理解“考虑到其他所有主体都是理性的他们会为自己选择最佳的行动那么达到纳什均衡的行为对我来说就是最佳对策。”为了了解行为中的纳什均衡让我们来解决博弈论中最常见的问题囚徒困境。这是一个经典的案例它说明了在主体只关心自身利益的情况下为了共同利益或互惠而合作行动是十分困难的。在这个案例中存在两个犯人Alan和Ben他们因同一罪行而被捕并被关押在两个不同的审讯室。他们有两个选择保持沉默承认罪行假设他们都做出了选择那么就会产生4种不同的结果· {沉默沉默}· {承认沉默}· {沉默承认}· {承认承认}这四种结果可以很方便地用博弈矩阵来表示在这种表示中收益以(Alan收益Ben收益)的形式表示。我们以列表示Alan的选择行表示Ben的选择。他们的选择都将导致负收益因为根据选择他们将被监禁的时间是预先确定的(尽管不是他们所希望的)。结果收益如下如果他们都保持沉默则都将被监禁1年如果其中一人承认罪行而另一人沉默则坦白者将被释放而另一人将被判处15年监禁如果两人都承认罪行则他们都将被判处10年监禁这个困境来源于两个囚犯都不清楚另一人的选择那么在这个情况下什么样的行动将达到纳什均衡理想状况下两个犯人将合作保持沉默。(红框中的选择)但我们也知道犯人一定希望自己被判处最少的监禁时间以得到最大利益。因此在即使保持沉默也将被判处1年监禁的情况下实际上会发生的将可能是 如果Ben承认了罪行那么坦白是更好的选择(10年监禁好于15年监禁)同时如果Ben保持沉默那么坦白同样是最好的选择(释放好于1年监禁) 我们可以看到这个博弈矩阵与Alan所想的完美契合。那么如果Ben如果也在进行博弈选择他的博弈矩阵将是让我们假设Ben也像Alan一样经历了理性的思考过程。那么同样的Ben将得到相似结论——无论Alan怎样选择他总可以从坦白中受益。如果我们将两个囚犯的理性思考一起考虑结果将是以结果来说最好的对策是{承认承认}。即使他们中的任何一个不采取这个行为他们也只会得到比这个策略更糟糕的结果。因此{承认承认}是一个纳什均衡。“因为都承认了罪行我们要在监狱10年。如果我们没承认就只需要1年”。 “是的但如果我不承认你一样会为了不去监狱而承认。那么我就要去监狱15年。我很庆幸我承认了。”很有道理对吧对于纳什均衡来说我们可以得到对于任何博弈它都是一个“无悔”的解决方案但却并不一定是最理想的。博弈的种类我们刚刚看到的是囚徒困境的一个例子两个囚犯必须同时做出一个决定用博弈矩阵的形式来表示。这些类型的博弈通常被称为“标准式博弈”。在博弈论中根据不同的标准博弈可以分为许多不同的种类。1. 主体之间的交互直观上我们可以根据博弈中的主体是以竞争还是合作为目标来区分博弈的种类。政治竞选是竞争博弈的好例子一个候选人的报酬就意味着另一个候选人的失败。另一方面篮球比赛可以被看作是一场合作博弈每个运动员彼此合作以赢得更多的回报。2. 主体是如何运作的我们也可以根据博弈的同时性和扩展性来进行分类。为了理解这一点我们可以以一个叫做“性别之战”的问题为例。假设Bob和Amy是两个十分要好的朋友。他们很清楚彼此的爱好足球和舞会。他们可以一起商量这个周末的游玩计划或者给对方一个惊喜。如果他们都计划给对方惊喜那么他们就不会知道对方的周末计划。以下博弈矩阵描述了4中不同的情况。博弈矩阵清楚地表示如果Bob和Amy没有成功碰面那么他们都不会得到回报。这是一个同时性的博弈案例在这个博弈中两个玩家同时行动并且事先不知道其他玩家的行动。另一方面如果他们告诉对方各自的计划来进行行动博弈将成为以下形式我做出最初的决定 因此我的决定节点在树顶。我可以在足球(左枝)和舞会(右枝)之间选择”。 “我有两个选择节点。但是一旦Amy告诉了我她的选择那么将只有一个节点与我相关。如果她选择了舞会那么我就会在该选择节点进行选择。”这是一个扩展型博弈或“回合制博弈”的案例。在这种博弈中每个玩家都可以看到对方的行动。另一个更直观的例子石头剪刀布游戏就是同时型博弈。另一方面井字游戏就是扩展型博弈。3. 基于信息的分类在博弈论中参与者往往不能得到完全的信息。他们可能不知道其他玩家的所有可能决策或潜在收益。玩家也可能不知道他们在和什么样的人打交道或者他们的动机是什么。根据对其他主体的了解程度博弈可以大致分为三类 · 完美信息博弈 · 不完美信息博弈 · 不完全信息博弈完美信息博弈(下左)在完美信息情况下每个主体都知道· 其他主体可以采取的所有可能行为· 他们正在进行的行为· 他们得到多少回报井字游戏和国际象棋就是最好的例子。当涉及到现世界时完美信息博弈是非常罕见的。此外机器学习和深度学习方法在这种博弈中表现出色。 不完美信息博弈(上右)在这种情况下主体知道其他主体的性质和动机以及在所有可能结果中会得到的回报。但不知道其他主体正在进行的行为。这里将军知道每一种可能情况下敌人的动机和回报。但是他无法知道敌人藏在哪里。因此将军不知道他所在的确切决策节点(虚线框)。不完美信息博弈在现实世界中经常出现。不完全信息博弈不完全信息是一种非常接近真实世界的模型。主体没有关于其他主体的“类型”信息。即使任意特定主体能够知道其他主体采取的行动他也不知道其他主体的动机或采取这种行动的回报。本质上不完全信息博弈是最广义的博弈形式。扑克游戏是不完全信息博弈的一个典型案例因为玩家不知道对手手中的牌是好是坏。我们特别关注扑克游戏中的博弈因为它不完全信息的性质很好地代表了真实世界。因此不完全信息博弈问题一直被认为是人工智能领域的一个基准问题。人工智能中的博弈论那么以上的一切在人工智能的背景下意味着什么。这些不同类型的博弈和信息与人工智能有什么关系呢就人工智能而言博弈论的基本作用是帮助决策。考虑到“理性”是博弈论的基础这一事实这并不是很难理解。实际上博弈论已经开始在人工智能领域占据一席之地。生成对抗网络(GANs)就是这样的一个重要应用。GANs被YannLeCun认为是“过去20年中机器学习领域最酷的想法。”(Yann LeCun是人工智能和深度学习领域的领头人之一)。那么博弈论在GANs中是如何起作用的呢为了回答这个问题我们首先要了解GANs的基础知识。一个GAN就是两个神经网络的组合即 · 生成器 · 鉴别器生成器是一个产生随机图像的神经网络。另一方面鉴别器将试图对生成的随机图像进行分类——应属于给出的数据集或只是一个生成的假图像。如果鉴别器将生成的图像分类为假图像那么生成器将调整其参数另一方面如果鉴别器将生成的图像分类为来自数据集那么鉴别器将调整其参数。这种竞争过程将一直进行并持续到无法再改进的状态。这个状态就是“纳什均衡”。从本质上讲这是两个神经网络之间的竞争博弈但在竞争中它们不断的优化自己以得到纳什均衡状态。博弈论的核心应用是不完美信息博弈。扑克游戏是一个经典的例子也是人工智能应用在不完美信息状态下的基准问题。在现实世界中不完美信息是非常重要的。但至今为止机器学习和深度学习在不完美信息博弈方面的成功十分有限。德州扑克无限制版就是一个不完美信息博弈的案例因为其他玩家隐藏了所持牌的信息。考虑到这个扑克游戏中所持牌有10的161次方种可能而可观测宇宙中的总原子数也只是10的82次方可见这是一个非常具有挑战性的问题。因此使用暴力方法对这个游戏进行建模是完全不可能的。当然也有人尝试过使用深度学习和深度强化学习但到目前为止知识效果平平。但是由卡内基梅隆大学的教授Tuomas Sandholm和人工智能研究员Noam Brown开发的名为 Libratus的人工智能程序表现优于以前的任何方法。在超过20000手扑克牌中Libratus战胜了世界冠军。Libratus的神奇之处在于它不使用任何机器学习的方法博弈论就是Libratus的核心思想。与深度学习和强化学习等相比它并不需要极高的计算能力。为了更多地了解博弈论是如何应用到Libratus中的以及博弈论在未来人工智能中的引用。另一方面人们经常争论机器学习和深度学习是否可以用于现实中的案例因为现实世界中的案例往往是是不完全信息博弈大多数机器学习和深度学习方法都会遇到很大困难。博弈论方法方法由于其在现实世界中的普遍性而逐渐得势。最好的例子就是“AI For SocialGood”项目的负责人Milind Tambe所做的工作——利用博弈论概念处理现实世界中的问题比如· 公共安全· 野生动物保护· 公共卫生等 博弈论小测验本文详细讨论了博弈论。就让我们以一个快速的突击测验来结束吧在0-100之间随机选择一个数字。如果你给出的数字是这次测验中所有玩家给出的数字平均值的三分之二那么你就将获胜。(提示你应该考虑其他玩家也和你一样理性)你能回答这个问题吗结语在这篇文章中我们讨论了博弈论的基本原理并简要地涵盖了必要的主题。我们甚至谈到了博弈论是如何被应用到机器学习领域的以及它在现实世界中的应用。但这只是一篇介绍性的文章——在以后的文章中我们将更深入地探讨博弈论以及如何将其应用到人工智能领域并从技术角度进行阐述。注:大部分图片来自伊万帕斯汀的《介绍博弈论》一书。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”