常州手机网站效果,怎样做网站的排名,网盘网站建设,青岛室内设计公司排名来源#xff1a;AI前线作者#xff1a;凌敏采访嘉宾#xff1a;黄鸿波2016 年#xff0c;DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石#xff0c;成为第一个战胜围棋世界冠军的人工智能机器人#xff0c;一时风头无两。AlphaGo 的巨大成功开启了“人工智能元… 来源AI前线作者凌敏采访嘉宾黄鸿波2016 年DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石成为第一个战胜围棋世界冠军的人工智能机器人一时风头无两。AlphaGo 的巨大成功开启了“人工智能元年”也让强化学习渐为大众熟悉。5 年后强化学习技术发展如何最大的瓶颈是没法用理想的强化学习策略是什么样……带着这些疑问InfoQ 采访到了西山居人工智能领域专家黄鸿波和他聊了聊强化学习技术在西山居的应用与实践经验。“依靠经验可以解决的问题理论上强化学习都能解决”强化学习Reinforcement learningRL是人工智能算法的一个特殊分支由环境、代理、奖励、动作、状态五大关键要素组成。维基百科对强化学习的定义为强化学习强调如何基于环境而行动以取得最大化的预期利益。与机器学习下的另外两种训练方法监督学习和无监督学习不同强化学习不需要大量的“数据喂养”而是通过不断尝试使自己获得最大奖励。DeepMind 研究人员在一篇名为《奖励就够了》的论文中提到奖励最大化和试错经验足以培养出可表现与智力相关能力的行为。由此他们得出结论强化学习这一基于奖励最大化理念的人工智能分支可以引领通用人工智能的发展。而在此之前“强化学习教父”Richard Sutton 更是直言“我相信从某种意义上讲强化学习是人工智能的未来。”强化学习到底能解决什么问题它是否真的无所不能在黄鸿波看来依靠人类经验可以解决的问题理论上强化学习都能解决。“强化学习利用的是经验而不仅仅是数据。在游戏领域如果我可以通过经验告诉你怎么在游戏中走位会更好那么强化学习也能够做到。在交通领域依靠人类经验可以知道哪个时间段哪里车多哪里车少通过强化学习技术也可以做到这一点。”虽然强化学习很强大但在当前还难以实现通用人工智能。“如果你想用一个强化学习模型去解决所有的问题我认为至少在现阶段是不太现实的。强化学习技术非常依赖算力它对 CPU 的核数、集群的数量、GPU 的数量要求比较高。目前强化学习技术所面临的最大一个问题就是算力。也许在未来随着算力越来越强算力成本越来越低那么强化学习能解决的问题也会越来越多。”事实上关于强化学习发展困境的讨论一直存在。今年 7 月知乎上一个题为“强化学习领域目前遇到的瓶颈是什么?”的话题讨论热度颇高南大人工智能学院教授俞扬给出了“没法用”的答案并随后作出进一步解释说明实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低然后做出了很多改进但是要改进到什么程度才能有用呢其实根据我们的经验有一个标准零试错一次试错不能有上线即能发挥效果还要明显优于基线。offline RL 是个正确的方向但是目前的主流研究也有很多明显的弯路可能发论文与做落地本身就是不同的事大家的关心点不可能完全一致吧。说没法用只是吐个槽要想发论文就只能沿着所谓的 SOTA 来改进即使是看起来没有希望的方向。另外就是我们的落地越来越多不再想着去说服别人 RL 可以用了。黄鸿波认为之所以在一些领域存在强化学习没法用的情况原因在于当前无法保证强化学习模型所产生的结论是百分百正确的。“很多领域都要求百分百精准比如医疗领域、精密仪器制造领域等等。如果达不到完全精准那我们就不能相信 AI最后可能还需要人工进行复审。这意味着AI 只是起到了一个辅助性的作用并不能起到决定性作用因此确实没法用。但在另外一些领域比如游戏即便 AI 出现了一点小的失误也没有关系。所以说强化学习能不能落地怎么落地具体还是要看领域。目前来看游戏无疑是强化学习技术最成功的一个落地场景。”强化学习技术的落地秘笈在过去游戏 AI 一般倾向于采用行为树作为决策结构通过引入逻辑节点减少转换条件迅速地组织较复杂的行为决策此外它的重用性很高可以通过重组不同的节点来实现不同的行为树。但与此同时行为树的缺点也显而易见比如它会让游戏内置的机器人看起来非常死板灵活性不强。而强化学习技术恰巧能弥补这个缺点让机器人更加拟人、智能提高游戏的可玩性同时也能提高游戏的制作效率。2020 年西山居开始在游戏中应用强化学习技术并组建了强化学习团队。目前经过一年多的积累西山居已经建立了强化学习集群并搭建了强化学习开发平台和开发体系。在算法设计思路上西山居在成熟的算法模型基础上加入游戏特定的 Trick让游戏整体在效果呈现上更加智能。“接下来我们有一款对战类型的游戏即将上线游戏中的 AI 就是利用强化学习技术来做的。”在实践的过程中黄鸿波发现游戏领域的强化学习和其他领域有本质上的区别。“目前市面上的算法、模型、框架基本都不是单独针对游戏领域的而是一个通用的强化学习框架它们的特点是运行环境要与框架进行强结合并整体打包在一起进行模型训练。但在游戏领域却是完全相反的尤其现在大多数游戏都是网络游戏有战斗系统或房间匹配系统可能战斗系统单独跑在一个服务器上训练系统跑在另一个服务器上。也就是说训练环境和战斗环境实际上是一个分离的状态。这种情况下就需要开发一个中转的平台来进行交互需要考虑的问题包括怎么获取环境信息、状态信息这个过程中还涉及到传输效率的问题。”在黄鸿波看来强化学习技术的落地秘笈并不在于要把算法改得多牛而是要将强化学习技术与深度学习、游戏策划相结合形成一套完备的解决方案并将其实现。“很多人认为我们用强化学习技术就是要把游戏变成非常强其实并不是。通过强化学习技术去打败人类玩家其实是一件非常简单的事情并且早已得到实现。但这是在研究阶段做的事情真正落地的时候AI 的目的并不是要打败玩家而是要陪玩家玩游戏。这也是我们游戏制作的一个核心思想。”至于理想的强化学习策略是什么样黄鸿波认为在游戏领域中要让用户有更加丰富的游戏体验而在其他领域如工业制造等要足够智能、灵活。“理想的强化学习能够让玩家在玩游戏的过程中更加开心。在非游戏领域理想的强化学习能够做出更加精准的决策。”人工智能跨过“人工智障只是时间问题谈到对人工智能的理解黄鸿波认为人工智能首先是人工战胜智能让计算机学到人类已有的知识或经验然后再辅助人类去完成繁杂或是需要脑力计算的工作。近几年人工智能发展迅速并逐步从学术研究过渡到产业落地。Appen Limited 发布的第七份《人工智能与机器学习现状年度报告》显示各企业 AI 预算金额较去年大幅增长 55%同时企业更加关注 AI 项目的实际实施。但与此同时关于人工智能的质疑声也此起彼伏有观点认为当前的人工智能远没达到智能甚至有些是“人工智障”。对于这些质疑黄鸿波认为背后主要有两方面原因一方面要想把人工智能做得更智能需要有一个非常庞大的数据云来做训练另一方面需要有强大的算力来做支撑。比如一些智能客服、陪聊 AI 很容易出现答非所问的情况原因就在于训练过程中并没有给它们喂入足够大的语料归根结底还是模型数据和算力有限。“人工智能跨过人工智障我认为只是一个时间的问题。随着时间的推移模型逐渐强大算力足够廉价数据足够多。这三个问题解决之后人工智能就会逐渐成为人们理想中的样子。”黄鸿波说道。最后对于想在人工智能领域发展的年轻人黄鸿波也分享了一点成长建议。在他看来无论是做人工智能方向的研究还是方案策划一定要关注它的应用价值关注如何才能将研究真正落地到生产中。而对于还未毕业的人工智能方向人才来说一定要提前明确自己未来的发展方向。“如果未来想进入企业里就需要知道企业需要的是什么样的人才企业需要的是工程能力强、算法能力强的人才要能够解决实际的问题。如果未来想进入高校或研究机构就要提高自己的学术水平。当你明确了从事的方向目标之后再去根据目标一步步倒推自己应该往哪个方向积累。”写在最后有句话叫做“万物皆可 AI”在可预见的未来AI 的触角将伸向各个领域。至于未来的 AI 什么样黄鸿波畅想道“与其说未来 AI 会应用在哪些方向倒不如说未来我们需要解决什么问题在未来哪里有问题哪里有痛点哪里就可以用 AI 来解决。”采访嘉宾黄鸿波珠海金山网络游戏科技有限公司西山居人工智能领域专家高级算法工程师谷歌机器学习方向开发者专家拥有多年软件开发经验著有《TensorFlow 进阶指南基础、算法与应用》一书。曾在格力电器股份有限公司大数据中心担任人工智能领域专家且在多家公司担任过高级工程师技术经理技术总监等职务。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”