当前位置：首页 > news >正文

福建高端网站建设南昌有限公司网站

news 2025/11/23 20:00:03

福建高端网站建设,南昌有限公司网站,成品网站前台源码,官方网站的作用来源 | AI科技评论作者 | Jesus Rodriguez编译 | 亚尔曼•佩皮校对 | 丛末 Camel博弈论在现代人工智能#xff08;AI#xff09;解决方案中正扮演着至关重要的角色#xff0c;深度强化学习#xff08;DRL#xff09;正是积极拥抱博弈论的头等公民。从单智能体程序到… 来源 | AI科技评论作者 | Jesus Rodriguez编译 | 亚尔曼•佩皮校对 | 丛末 Camel博弈论在现代人工智能AI解决方案中正扮演着至关重要的角色深度强化学习DRL正是积极拥抱博弈论的头等公民。从单智能体程序到复杂的多智能体深度强化学习环境博弈论原理贯穿了 AI 程序的整个生命周期。而反过来DRL 的快速演化也重新激发了人们对博弈论研究的关注。目前大多数 DRL 模型事实上还停留在传统的博弈论层面例如纳什均衡或零和游戏等。但随着DRL的发展传统博弈论方法已经逐渐呈现出不足之处而同时则有一些新的博弈论方法被纳入到人工智能的程序当中。因此对于我们来说若想进一步优化深度强化学习的模型考虑融入新的博弈论方法是值得考量的一个方向。以下三个正是在深刻影响 DRL 的「新」博弈论方法或许用到你的模型中会大大改观模型的性能。一、平均场博弈Mean Field Games在博弈论家族中平均场博弈MFG还是一个相对较新的领域。平均场博弈论诞生于 2006 年这一理论是由两个团队独立提出的一个是蒙特利尔的 Minyi Huang、Roland Malhame 和 Peter Gaines另一个是巴黎的 Jean-Michel Lasry和菲尔兹奖获得者 Pierre-Louis Lions。从概念上讲平均场博弈论是一套方法和技术的组合它被用来研究由「理性博弈方」组成的大群体下的差异化博弈。这些智能体不仅对自身所处的状态如财富、资金有偏好还关注其他智能体在整个样本分布中所处的位置。平均场博弈理论正是针对这些系统对广义纳什均衡进行了研究。平均场博弈的经典案例是如何训练鱼群朝相同方向游或者以协作方式游。这个现象很难用理论解释但它的本质事实上是鱼会根据最靠近的鱼群的行为做出反映。再具体点儿每条鱼并不在乎其他单个鱼的行为而是关注附近作为一个整体、统一移动的鱼群做出的行为。如果我们用数学方程表述这个原理一方面可以用 Hamilton-Jacobi-Bellman 方程来描述鱼对周边鱼群的反应另一方面则可以用 Fokker-Planck-Kolmogoroy 方程来表示决定整个鱼群行动的所有鱼的行为集合。平均场博弈理论就是这两个等式的组合。从深度强化学习的角度来说在研究大范围环境中大量智能体的表现方面平均场博弈论扮演着重要的角色。实验和理论已经证实在“接近无限多智能体、并假设采用不精确的概率模型进行操作”的环境中已有的 DRL的方法并不具备现实可用性。而 MFG 却是模拟这类 DRL 环境的一个有意思的方法非常值得尝试。一家叫做Prowler 的创业公司最近就在针对平均场博弈论MFG在大型多智能体DRL环境中的表现开展研究工作。二、随机博弈Stochastic games随机博弈可追溯到 20 世纪 50 年代它由诺贝尔经济学奖获得者 Lloyd Shapley 提出。理论上随机博弈的规则是让有限多个博弈者在有限个状态空间中进行博弈每个博弈者在每个状态空间都从有限个行为中选出一个行为这些行为的组合结果会决定博弈者所获得的奖励并得出下一个状态空间的概率分布。随机博弈的经典案例是哲学家的晚餐问题n1 位哲学家n 大于等于 1围坐在一个圆桌周围圆桌中间放了一碗米饭。每两位邻座的哲学家之间会放一支筷子以供这两位取用。因为桌子是圆形的筷子的数量与哲学家的数量一样多。为了从碗中取到东西吃哲学家需要同时从两边各取一支筷子组成一双因此在一位哲学家吃东西时他的两位邻座就无法同时进食。哲学家的生活简单到只需要吃和思考而为了存活下来哲学家需要不断地思考和吃东西。这场博弈的任务就是设计出一个可以让所有的哲学家都活下来的制度。DRL 已经开始应用随机博弈理论解决多玩家游戏问题。在许多多玩家游戏中AI 智能体战队需要评估如何通过与其他智能体协作和竞争以最大化正向结果。这一问题一般被称作探索-利用困境。在 DRL 智能体中构建随机博弈动态机制可以有效地平衡 DRL 智能体在探索能力和利用能力方面的发展。DeepMind 在训练 AI 掌握 Quake III 游戏的工作中就融合了一些随机博弈论中的概念。三、进化博弈Evolutionary Games进化博弈理论EGT是从达尔文进化论中得到的启发。EGT 的起源可以追溯到 1973 年当时 John Maynard Smith 和 George R.Price两人采用「策略」分析将演化竞争形式化并建立数学标准从而来预测不同竞争策略所产生的结果。从概念上来说EGT 是博弈论在进化场景中的应用。在这种博弈中一群智能体通过重复选择的进化过程与多样化的策略进行持续交互从而创建出一个稳定的解决方案。它背后的思路是许多行为都涉及到群体中多个智能体间的交互而其中某一个智能体是否获得成功取决于它采取的策略与其他智能体的策略如何交互。经典博弈论将关注点放在静态策略上即参与者采取的策略不会随着时间改变而进化博弈与经典博弈论不同它关注策略如何随着时间演化以及哪个动态策略是进化进程中最成功的那一个。EGT 的经典案例是鹰鸽博弈Howk Dove Game它模拟了鹰与鸽之间对可共享资源的竞争。博弈中的每个竞争者都遵循以下两种策略之中的一种鹰本能的强势充满侵略性除非身负重伤否则绝不退却。鸽面对强势进攻会立即逃跑。如果假设1两个同样强势进攻的鹰进行搏斗两者之间必然会发生冲突且两者都很有可能受伤2冲突的代价是每人都受到一定程度的损伤用常量 C 表示这个损失3如果鹰与鸽相遇鸽会立刻逃跑而鹰则会占有资源4两只鸽相遇则他们将公平地分享资源。鹰鸽博弈的对应收益可以用以下矩阵总结EGT 看上去似乎是特地为 DRL 环境而设计的。在多智能体的 DRL 环境中智能体在彼此交互的过程中会周期性地调整自己的策略。而 EGT 正是一种可以高效模拟这些交互的方法。最近OpenAI 就展示了经过这种动态训练的智能体在玩捉迷藏游戏时的表现https://openai.com/blog/emergent-tool-use/。via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1以上文章观点仅代表文章作者仅供参考以抛砖引玉未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/550504/