5千ip的网站能赚多少钱,建筑招工信息网,免费企业网站程序,elementor做视频网站摘要人类文明的成功#xff0c;植根于我们通过沟通和制定共同计划进行合作的能力。人工智能主体面临着与人类类似的问题。最近#xff0c;人工智能公司 DeepMind 展示了AI如何利用沟通在桌游“强权外交”中更好地合作。研究发现#xff0c;沟通主体容易受到背叛协议者的负面…摘要人类文明的成功植根于我们通过沟通和制定共同计划进行合作的能力。人工智能主体面临着与人类类似的问题。最近人工智能公司 DeepMind 展示了AI如何利用沟通在桌游“强权外交”中更好地合作。研究发现沟通主体容易受到背叛协议者的负面影响。但如果对违反合同的主体进行制裁则可以大大降低背叛者的优势并鼓励人工智能主体保持诚实。人工智能合作博弈来源集智俱乐部 作者Yoram Bachrach, János Kramár译者郭瑞东审校梁金编辑邓一雪 论文题目Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy论文链接https://www.nature.com/articles/s41467-022-34473-5纵观历史成功的沟通与合作对于推动社会发展至关重要。棋类游戏的封闭环境可以作为沙盒来建模和调研交互和沟通我们可以从中学到很多东西。在最近发表在 Nature Communications 杂志上的论文中我们展示了人工智能AI如何利用沟通在桌游“强权外交”Diplomacy中更好地进行合作。“强权外交”是人工智能研究中一个充满活力的领域以其对建立联盟的关注而闻名。“强权外交”是具有挑战性的桌游它规则简单但由于玩家之间强烈的相互依赖性和巨大的行动空间而涌现出高度的复杂性。为解决这一挑战我们设计了协商算法允许主体agent交流并就联合计划达成一致使他们能够战胜缺乏这种能力的主体。当我们不能指望同伴履行承诺时合作尤其具有挑战性。我们将“强权外交”作为沙盒来探索当主体背叛他们过去的协议时会发生什么。我们的研究说明了当复杂的主体能够歪曲他们的意图或者在未来计划上误导他人时会出现怎样的风险这就引出了另一个大问题什么样的条件能够促进可信赖的沟通和团队合作我们的研究表明制裁那些违反合同的同伴这一策略大大削减了他们背弃承诺所能获得的好处从而促进了更诚实的沟通。1. 什么是“强权外交”为什么它很重要象棋、扑克、围棋和许多视频游戏一直是人工智能研究的沃土。“强权外交”是一个7人的谈判和结盟游戏在将欧洲划分成省份的古老地图上进行每个玩家控制多个单位外交规则。在游戏的标准版本称为“新闻外交”Press Diplomacy每回合包括一个谈判阶段在此之后所有玩家同时透露他们选择的行动。“强权外交”的核心是谈判阶段在这个阶段玩家们试图就他们的下一步行动达成一致。例如一个玩家可以支持另一个玩家允许它克服其他玩家的阻力如下所示:图1. 两种移动方案。左图: 两支部队Burgundy 的一支红色部队和 Gascony 的一支蓝色部队试图进入巴黎。由于两个单元势均力敌两个单位都不能成功。右图Picardy 的红色部队支援 Burgundy 的红色部队压制蓝色部队让红色部队进入 Burgundy。自20世纪80年代以来人们一直在研究“强权外交”的AI算法其中许多方法都是在一个更简单的游戏版本“无媒体外交”No-Press Diplomacy中进行探索的在这个版本中玩家之间不允许进行战略沟通。研究人员还提出了计算机友好的谈判协议有时被称为“限制版外交”。2. 模拟现实世界谈判我们使用“强权外交”作为现实世界谈判的模拟人工智能主体通过算法协调他们的行动。我们通过向没有沟通能力的主体提供一份用以谈判联合行动计划的协议用以增强他们在沟通方面的能力。我们称这些增强主体为基线谈判主体Baseline Negotiator它们受协议的约束。图2. 外交合同。左图: 一个限制只允许红方玩家采取某些行动 [他们不允许从鲁尔河移动到勃艮第Burgundy必须从皮德蒙特Piedmont移动到马赛Marseilles]。右红绿双方之间的合同对双方都有限制。本文考虑两个协议相互提议协议和提议-选择协议。我们的主体应用算法通过模拟游戏如何在不同的合同下展开来识别互惠交易。我们使用博弈论中的纳什讨价还价解Nash Bargaining Solution作为识别高质量协议的基础原则。游戏可能以很多方式展开这取决于玩家的行为因此我们的主体使用蒙特卡洛模拟来看下一回合可能发生什么。图3. 给定一个约定的契约模拟下一步状态。左部分棋盘上当前的状态包括红色和绿色玩家之间商定的一个合同。右多种可能的下一步状态。实验表明我们的协商机制允许基线谈判主体明显优于非交流的基线主体。图4. 基线谈判主体的表现明显优于非交流的主体。左: 共同提议协议。右: 提议-选择协议。“谈判者优势”纵轴是指交流主体与非交流主体之间的胜率比。3. 主体违反协议在“强权外交”中谈判期间达成的协议是没有约束力的口说无凭。但是如果主体这一次同意合同下一次又违反合同会发生什么呢在许多现实生活场景中人们同意以某种方式行事但事后却不能履行承诺。为了实现人工智能主体之间或者主体与人类之间的合作我们必须研究主体战略性地违反协议带来的潜在隐患以及解决这个问题的方法。我们利用强权外交研究了背弃承诺的能力如何损害信任与合作并确定了促进诚实合作的条件。所以我们考虑背叛主体Deviator Agent它通过偏离商定的合同试图战胜诚实的基线谈判者。简单背叛者Simple Deviator只是“忘记”他们曾同意合同并随心所欲地移动。条件背叛者Conditional Deviator更加复杂他们假设其他接受合同的玩家会按照合同行事据此优化自己的行为。图5. 所有类型的可交流主体。在绿色分组标准下每个蓝色块代表一种特定的主体算法。我们发现简单背叛者和条件背叛者的表现明显优于基线谈判者而条件背叛者的表现是压倒性的图3。图6. 背叛主体与 vs 基线谈判主体。左: 共同提议协议。右: 提议-选择协议。“背叛主体优势”纵轴是背叛主体与基线谈判主体之间的胜率比。4. 鼓励AI主体变得诚实接下来我们使用防御主体Defensive Agent来解决背叛问题防御主体对背叛者有负面的反应。我们调查二元谈判者Binary Negotiator它们只是简单地切断与违反协议的主体的联系。但回避只是一种温和的反应所以我们也开发了制裁主体Sanctioning Agent他们不会忽视背叛而是修改他们的目标积极地试图降低背叛者的得分——一个怀恨在心的对手我们表明这两种类型的防御主体减少了背叛带来的优势特别是制裁主体。图7. 非背叛主体基线谈判主体、二元谈判主体和制裁主体对付条件背叛主体。左图: 共同提案协议。右图提议-选择协议。“背叛优势”纵轴值小于1表示防御主体优于背叛主体。与基线谈判者灰色相比二元谈判者蓝色的数量减少了背叛者的优势。最后我们引入可学习的背叛者Learned Deviator他们在多场游戏中调整和优化策略以对抗制裁主体的行为试图降低上述防御策略的有效性。一个可学习背叛者只有在背叛带来的直接收益足够高而其他主体的报复能力足够低的情况下才会违约。在实践中可学习的背叛者偶尔会在游戏后期违反合同这样做相比制裁主体可以获得略微优势。尽管如此这些制裁还是促使可学习的背叛者履行了99.7%以上的合同。我们还研究了制裁和背叛主体的可能学习动力学当制裁主体也可能背叛合同时会发生什么以及当这种行为代价高昂时停止制裁的潜在动机。这些问题会逐渐削弱合作因此可能需要其他机制例如跨多个游戏的重复互动或需要使用信任和声誉系统。我们的论文为未来的研究留下了许多问题是否有可能设计更复杂的协议来鼓励更诚实的行为如何在不完全信息博弈时使用各种交流技术最后还有什么其他机制可以阻止协议被破坏构建公平、透明和可信赖的人工智能系统是一个极其重要的课题也是 DeepMind 使命的关键部分。在“强权外交”这样的沙盒中研究这些问题有助于我们更好地理解现实世界中可能存在的合作与竞争之间的紧张关系。最终我们相信应对这些挑战能让我们更好地理解如何根据社会的价值观和优先事项开发人工智能系统。本文翻译自 DeepMind 的博客文章。原文链接https://www.deepmind.com/blog/ai-for-the-board-game-diplomacy未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”