网站站群怎么做,网站注册页面跳出怎么做,电商公司官网,在中国如何推广外贸平台理性人不选择坏战略 上一节#xff0c;我们借助囚徒困境博弈阐述了什么是占优均衡。在囚徒困境中#xff0c;无论别人采取什么行动#xff0c;每一个参与人都有一个特定的最优选择#xff08;占优战略#xff09;。也就是说#xff0c;一个理性的参与人在做决策时#x…理性人不选择坏战略 上一节我们借助囚徒困境博弈阐述了什么是占优均衡。在囚徒困境中无论别人采取什么行动每一个参与人都有一个特定的最优选择占优战略。也就是说一个理性的参与人在做决策时并不需要假定对方也是理性的。对于这样的博弈我们很容易预测它的结果。但是有些博弈可能是一方有占优战略另一方没有占优战略即什么是自己的最优行动依赖于他预测对方会选择什么行动对方的选择不同自己的最优行动就不同。此时博弈结果又会怎样呢下面我们就用“智猪博弈”boxed pigs game来分析这个问题。 设想猪圈里有两头猪一头大猪和一头小猪。在猪圈的一头装有一个按钮另一头装有食槽。在这头按一下按钮那头的食槽会有8单位的食物出现。但不管是大猪还是小猪按动按钮都需要花2个单位食物的成本。如果两头猪一起按各付2单位食物成本然后大猪吃到6份食物小猪可以吃到2份食物扣除成本后双方的净收益分别为4和0。如果大猪按、小猪不按则小猪不付出任何代价就可以吃到3份大猪按完之后跑回来可以吃到5份扣除其按按钮的2个单位的成本大猪的净收益也是3。反过来如果大猪不按、小猪按的话大猪可以不付出任何代价就可以吃到7份小猪则只可以吃到1份扣除其2单位的成本则小猪的净收益为-1。如果两头猪都不按则不付出成本但也不会有食物吃净收益都为0。如下图所示。 现在的问题是谁来按这个按钮 先考虑大猪的情况如果小猪按的话大猪的最优选择是“等待”74但如果小猪等待的话大猪的最优选择是“按”30。这就和前面所讲的囚徒困境博弈不一样了。在囚徒困境博弈中每一个参与人都有一个占优战略——不论对方是否坦白你最好是坦白。但在智猪博弈中大猪没有占优战略大猪的最优选择依赖于小猪的选择。所以大猪在做出选择前必须猜测小猪的选择。 那么小猪会如何选择呢对于小猪来说如果大猪按自己的最优选择是“不按”30如果大猪不按自己的最优选择仍然“不按”0-1。这表明小猪选择“不按”是一个占优战略。 那大猪应该怎么办呢我们前边假定的每一个博弈参与人大猪或小猪都是理性的但并没有假定一方知道另一方也是理性的。显然小猪在做决策时并不需要假定大猪是理性的因为无论大猪是否理性小猪的最优决策都是不按但大猪的情况不同即使小猪是理性的如果大猪不知道小猪是否理性大猪就没有办法做出选择。 为了预测这个博弈的结果我们必须对大猪的理性程度做出进一步的假设。假定大猪不仅自己是理性的也知道小猪是理性的。作为理性的参与人小猪不会按。由于大猪知道小猪是理性的就会知道小猪不会按因此大猪的最优选择只能是按。博弈的结局就是大猪按小猪不按各得3单位的净报酬。 从这个例子里面我们可以进一步提出一个概念——劣战略dominated strategy。所谓劣战略是指不论对手选择什么自己都不会选择的战略。在智猪博弈中对于参与人小猪来说“按”就是它的一个劣战略。因为无论大猪按还是不按对于小猪按都不是它的最好选择。因此如果大猪知道小猪是理性的就可以把“按”这一战略从小猪的战略集合中去掉。大猪现在面对的博弈如下图所示 这时对于大猪来说“不按”也变成劣战略了他也不会使用这一战略。因此我们可以把这一劣战略再从大猪的战略集合中去掉得到下图所示的结果 这样一来我们得到了唯一的最优战略组合是大猪按小猪不按。这就是大小猪博弈的战略均衡。寻找这个博弈的均衡的进程是相继剔除劣战略的过程。所以这个均衡被称为“重复剔除占优战略均衡”iterated dominance equilibrium。 批注和“纳什均衡”的区别在哪里呀 智猪博弈的均衡解在现实中有许多应用。比如说股份公司中股东承担着监督经理的职能但股东中有大股东和小股东之分他们从监督中得到的收益并不一样。监督经理需要搜集信息花费时间。在监督成本相同的情况下大股东从监督中得到的好处显然多于小股东。这里大股东类似“大猪”小股东类似“小猪”。均衡结果是大股东担当起搜集信息、监督经理的责任小股东则搭大股东的便车。股票市场上炒股票也是如此。股市上有庄家和散户。庄家类似“大猪”散户类似“小猪”。这时候“跟庄”是散户的最优选择而庄家则必须自己搜集信息进行分析。 市场中大企业与小企业之间的关系也存在类似的问题。进行研究开发为新产品做广告对大企业来说是值得的对小企业来说则可能得不偿失。所以大企业往往负责创新而小企业把精力花在模仿上。 国际范围的反恐怖主义的活动也类似一个智猪博弈。在全球化时代恐怖主义已成为一种国际现象伤害所有的国家。但反恐的成本是很高的小国尽管也不喜欢恐怖分子但他们也没有积极性反恐。所以国际反恐中一定是大国承担更大的责任人力、物力小国搭便车。即大国扮演大猪的角色小国扮演小猪的角色。随着中国的崛起国际社会要求中国承担更大的责任也是这个道理。国际反恐可以理解为国际范围的公共产品。前面讲公共产品的生产是一个囚徒困境博弈事实上有些公共产品的生产类似智猪博弈因为受益者是不对称的有人受益大有人受益小。在这种情况下受益大的人可能有积极性私人生产公共产品如过去农村一些大户人家就负责本村道路的维修。这也就是说并不是所有的公共产品都需要政府提供。 社会改革中也有类似的情况。同样的改革给一部分人带来的好处可能比另一部分大得多。这时候前一部分人比后一部分人更有积极性改革改革往往就是由这些“大猪”推动的。如改革能创造出更多的“大猪”来改革的速度就会加快。 理性作为共同知识 分析智猪博弈是一个重复剔除劣战略的过程。具体来说首先在整个博弈当中找出某一个参与人的劣战略把它剔除掉然后再在剩下的博弈中再找出劣战略并将其剔除不断进行下去如果剔除到最后只留下一个战略组合那么这个战略组合就是我们说的重复剔除占优均衡。这种情况下我们说这个博弈是重复剔除占优可解博弈。 我们已经看到预测这样的博弈中每个人会选择什么我们需要对参与人的理性程度做出更高的要求仅仅假定每个参与人都是理性的并不能告诉我们均衡结果是怎样的。比如在智猪博弈中除了假定大猪和小猪都是理性的外我们至少还得假定大猪知道小猪是理性的。小猪是理性的意味着小猪不会选择按。但如果大猪不知道小猪是理性的大猪仍然不知道如何选择。 但这个博弈对理性程度的要求仍然是很低的我们甚至不需要假定小猪知道大猪是理性的因为不论大猪是否理性小猪都知道自己的最优选择是不按。在许多博弈中即使假定每个参与人知道其他参与人是理性的仍然不能告诉我们参与人会如何选择。 为此我们需要引入理性共识common knowledge of rationality的概念并定义零阶zero-order、一阶first-order、二阶second-order直至无限阶次的理性共识。零阶理性共识每个人都是理性的但不知道其他人是否理性一阶理性共识除了要求每个人都是理性的还要求每个人都知道其他人是理性的二阶理性共识则需要在满足一阶的基础上更进一步首先每个人是理性的同时每个人知道其他人是理性的并且每个人知道其他人知道自己是理性的依次类推N阶理性共识直至无穷阶次的理性共识。 一般讲的理性共识是无穷阶次的理性共识。打个比方类似一个人前后各有一面镜子镜子里有无穷个映像。这是博弈论中的一个基本假设但现实很少达到这是博弈分析的结果与现实有偏离的一个重要原因。生活中之所以有计谋就是由于参与人不满足理性共识的要求否则博弈的结果是任何人都可以预测的任何计谋都不可能得逞。比方说乙很聪明甲也知道乙很聪明但是乙不知道甲知道乙很聪明这种情况下乙出个计谋骗甲甲“将计就计”最后获胜的反倒是甲。如果乙知道甲知道乙很聪明乙就知道任何计谋都会被甲识破乙就不可能有机会被“将计就计”。田忌赛马的故事中齐王的上中下三匹马均好过田忌的上中下三匹马但田忌用下马对齐王的上马上马对齐王的中马中马对齐王的下马结果田忌以2∶1获胜。容易看出田忌之所以能获胜就是因为齐王不知道田忌聪明或者说齐王太傻。如果齐王足够聪明的话只要要求田忌先出马齐王应该有这个权力齐王一定可以3∶0获胜。 尽管很少有人能达到无穷阶理性共识但像齐王这么“傻”的人也不多。为了说明理性共识在重复剔除中的重要性考虑如下所示的博弈。在该博弈中每个参与人都有四个选择仍假定理性是共同知识。 首先看R的选择如果C选择C1, R应该选择R1如果C选C2则R应该选择R2类似地C3、C4对应的最优反应分别是R3、R4。显然R的任何一种选择都是理性的具体依赖于他如何判断C的选择。 再来看C的选择如果R选择R1, C会选择C3如果R选择R2, C会选择C2。R3、R4对应的最优反应分别是C2、C1。 在这个博弈里无论R选择什么C都不会选择C4即C4是C的劣战略。如果R知道C是理性的R就不再会选择R4因为R选择R4的唯一理由是C会选择C4现在R知道理性的C不会选择C4故也不会选择R4。 进一步我们知道C选择C1的唯一理由是R选择R4。如果现在C知道R不会选择R4, C就不会选择C1。所以可以进一步剔除C1。同样的道理接下来R会剔除R1。同理可以再依次剔除C3和R3。最后只剩下C2, R2双方的收益均为1这就是前述讲到的重复剔除占优均衡。可以看到重复剔除占优均衡的求解是根据理性共识一步一步地剔除劣战略最后得到唯一的均衡结果。一般来说博弈中参与人的选择越多对理性共识的要求就越高。 实际上求解这个均衡要求五阶理性共识 零阶理性共识C是理性的这意味着他不会选择C4 一阶理性共识R知道C是理性的这意味着他知道C不会选C4故自己也不会选择R4 二阶理性共识C知道R知道C是理性的这意味着C知道R将不会选R4故自己不应该选择C1 三阶理性共识R知道C知道R知道C是理性的这意味着R知道C不会选C1了故自己不应该选择R1 四阶理性共识C知道R知道C知道R知道C是理性的这意味着C现在知道R不会选R1了故自己不应该选C3 五阶理性共识R知道C知道R知道C知道R知道C是理性的这意味着R知道C不会选C3了故自己不应该选R3。 经过上述推理最后的结果将是R选择R2, C选择C2。 这样的一个推理过程可能让读者已经都晕倒了。这说明理性共识对于求解和预测一个博弈要求非常高现实中参加博弈的参与人很难达到这一要求。这也是我们前面提到的很多时候博弈论的理论预测结果和现实中实际结果会有差异的一个主要原因。