天津做网站多少钱,泉州模板做网站,青岛网站,Wordpress拍卖来源#xff1a;专知摘要#xff1a;MIT科学家Dimitri P. Bertsekas今日发布了一份2019即将出版的《强化学习与最优控制》书稿及讲义#xff0c;该专著目的在于探索这人工智能与最优控制的共同边界#xff0c;形成一个可以在任一领域具有背景的人员都可以访问的桥梁。REINF… 来源专知摘要MIT科学家Dimitri P. Bertsekas今日发布了一份2019即将出版的《强化学习与最优控制》书稿及讲义该专著目的在于探索这人工智能与最优控制的共同边界形成一个可以在任一领域具有背景的人员都可以访问的桥梁。REINFORCEMENT LEARNING AND OPTIMAL CONTROLby Dimitri P. BertsekasAthena Scientific, 2019这是一本书的草稿预计在2019年的某个时候定稿并由Athena Scientific出版社出版。这意味着这份书稿代表“正在进行的工作”并将定期更新。它很可能有些错误(希望不是严重的错误)此外它对文献的引用可能是不完整的。欢迎读者发送邮件dimitribmit.edu 向作者提出意见和建议。本书的目的是考虑大型和具有挑战性的多阶段决策问题这些问题可以通过动态规划和最优控制从原则上解决但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略suboptimal policies的求解方法。这些方法统称为强化学习reinforcement learning也包括近似动态规划approximate dynamic programming和神经动态规划 neuro-dynamic programming等替代名称。我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释而不是基于证据的洞察力。在附录中我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此我们需要一个适度的数学背景微积分、初等概率和矩阵向量代数等。实践证明这本书中的方法是有效的最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而在广泛的问题中它们的性能可能不太可靠。这反映了该领域的技术现状没有任何方法能够保证对所有甚至大多数问题都有效但有足够的方法来尝试某个具有挑战性的问题并有合理的机会使其中一个或多个问题最终获得成功。因此我们的目标是提供一系列基于合理原则的方法并为其属性提供直觉即使这些属性不包括可靠的性能保证。 希望通过对这些方法及其变体的充分探索读者将能够充分解决他/她自己的问题。Slides章节第一章精确动态规划 Exact Dynamic Programming第二章值空间中的逼近 Approximation in Value Space第三章参数近似 Parametric Approximation第四章无限视野强化学习 Infinite Horizon Renforcement Learning第五章集合 Aggregation参考文献 Reference前言 目录▼未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”