设计广告设计,广州关于进一步优化,wordpress网站跳转nginx,苏州建站公司速找苏州聚尚网络全世界只有3.14 % 的人关注了数据与算法之美卢sir在回顾2018年的时候#xff0c;发现居然遗漏了一个“知识点”——在2018年的最后一个月#xff0c; AlphaGo Zero登上了世界顶级学术期刊《科学》杂志的封面。Google设计了AlphaGo#xff08;围棋机器人#xff09;的事早已… 全世界只有3.14 % 的人关注了数据与算法之美卢sir在回顾2018年的时候发现居然遗漏了一个“知识点”——在2018年的最后一个月 AlphaGo Zero登上了世界顶级学术期刊《科学》杂志的封面。Google设计了AlphaGo围棋机器人的事早已经家喻户晓了都9102年了它怎么又出现了说到这卢sir就先带大伙回顾一下AlphaGo的发展历程吧。迄今为止AlphaGo一共有四个版本AlphaGo Fan、AlphaGo Lee、AlphaGo Master和AlphaGo Zero。2016年AlphaGo Fan以5比0的战绩战胜了欧洲围棋冠军樊麾后登上了国际学术期刊《自然》的封面成功引起了人类的注意。紧接着AlphaGo Lee又以4比1的比分战胜了围棋世界冠军、职业九段棋手李世石成为了世界上第一个战胜围棋世界冠军的人工智能机器人。愈战愈勇的AlphaGo又以“AlphaGo Master”的身份与中日韩数十位围棋高手进行快棋对决创造了连续60局全胜的战绩甚至连人类排名第一的棋手柯洁也被打成3比0。不得不说AlphaGo的势头的确挺猛的仅一年的时间就战胜了大量的世界顶尖的围棋高手甚至还引发了“机器人打败人类开始占领地球”的言论。不过机智的卢sir早已看破其中的奥秘“Fan、Lee和Master”看起来是人工智能实际上却是“人工智障”。因为它们在比赛前就会从对手的棋局里进行全方位的学习比如说在任意一步时它们就会把下一步所有可能性都罗列出来然后一步步往后推然后选取胜率最高的方法。说来也搞笑谁能想到一群围棋精英会输给一个连围棋规则都不懂的机器人呢所以说AlphaGo只能打有准备的仗让它临场发挥的话可能它连我卢sir都下不赢更别提它能“占领地球”了。直到2017年10月19Deepmind谷歌下属公司在国际学术期刊《自然》上发表的一篇研究论文中就提到了AlphaGo的全新版本——AlphaGo Zero。AlphaGo Zero与前三代的最大不同是它能从空白状态学起在无任何人类输入的条件下它能够迅速自学围棋。也就是说这次AlphaGo Zero是真的自己学会了围棋规则系统学会渐渐从输、赢以及平局里面调整参数让自己更懂得选择那些有利于赢下比赛的走法而不再去分析对手的特征了。都说新官上任三把火AlphaGo Zero仅经过了3天的训练自学就以100比0的绝对优势战胜了AlphaGo Lee经过40天训练后又把AlphaGo Master给秒杀了。高呼着“抛弃人类经验”和“自我训练”问世的AlphaGo Zero的本领当然不只是欺负“老人家”啦它强大的reinforcement learning强化学习的算法可以让它轻松的掌握国际象棋、日本将棋和中国围棋而且每项都能当世界第一。训练2个小时AlphaZero就碾压了日本将棋世界冠军程序Elmo训练4个小时AlphaZero就战胜了国际象棋世界冠军程序Stockfish。其中卢sir就发现了一个细节由于AlphaGo Zero的机制从“知己知彼”变成了“百战百胜”它下棋能力也出现相应的成长式变化而不是一味的获胜。话不多说直接看一组数据AlphaGo Zero在挑战国际象棋世界冠军Stockfish时1000场输了155场在挑战日本将棋世界冠军Elmo时胜率为91.2%在挑战AlphaGo的前三代时胜率仅有61%。那为什么AlphaGo Zero不选择和人类一较高下而是和机器人打起了内战因为早在AlphaGo把人类精英棋手虐一遍之后就宣布不再参与任何人机之间的下棋比赛典型的装完逼就跑。其实机器人也是不忍心了因为早在1997年5月人类棋手就已经被机器人血虐了——超级计算机“深蓝”打败了国际象棋棋王世界冠军卡斯帕罗夫这件事轰动了整个世界。虽然卢sir觉得AlphaGo Zero已经有了质的突变但还是有不少人怀疑它的真实性和可行性。直到2018年12月AlphaGo Zero登上世界顶级学术期刊《科学》杂志封面后《科学》杂志官方为其正名“能够解决多个复杂问题的单一算法是创建通用机器学习系统解决实际问题的重要一步。”那AlphaGo Zero到底是凭什么用短短一年时间从“知己知彼”变成“百战百胜”的呢首先AlphaGo Zero做了一个全新的定位重在学习而不是急于求胜。Deepmind采用了5000个TPU可以简单的理解为电脑的CPU再结合深度神经网络、通用强化学习算法和通用树搜索算法来打造了一个全能棋手。AlphaGo Zero的学习能力也是一个动态成长的过程每次学习一种新的棋类或者游戏都会根据难易程度来展开一段自我博弈产生的超参数再通过贝叶斯优化进行调整。与此同时AlphaGo Zero的“自学”过程还有一项特别重要的任务——对自身进行神经网络训练。训练好的神经网络可以精准地指引一个搜索算法就是蒙特卡洛树搜索 (MCTS) 为每一步棋选出最有利的落子位置。每下一步之前AlphaGo Zero的搜索对象不是所有可能性而只是最合适当下“战况”的一小部分可能性这就大大提升了精确性和效率性。关于神经网络的优势Deepmind在论文中也例举了例子。上图展示的是在AlphaGo Zero执白、Stockfish执黑的一局国际象棋里经过100次、1000次……直到100万次模拟之后AlphaZero蒙特卡洛树的内部状态。每个树状图解都展示了10个最常访问的状态。不怕机器人会下棋就怕机器人产生意识和情感。其实对于AlphaGo Zero的人工智能性质棋手们最大的感受就是这个家伙不按套路出牌。因为AlphaGo Zero自己学习了每种棋类所以它并不受人类现有套路的影响产生了独特的、且富有创造力和动态的棋风。国际象棋世界冠军卡斯帕罗夫也在《科学》上撰文表示“AlphaGo Zero的棋风跟我一样具备动态、开放的风格。”卢sir但这样并不能掩盖你战败的事实。精品课程推荐选购数学科普正版读物严选“数学思维好物”送给孩子的益智礼物 | 办公室神器算法工程师成长阅读 | 居家高科技理工科男女实用型礼物精选 ----点击头像关注----超级数学建模数据与算法之美少年数学家数锐学堂惊喜酱个人号玩酷屋COOL