当前位置: 首页 > news >正文

wordpress建站比较中国都有哪些网站

wordpress建站比较,中国都有哪些网站,广告设计专业有什么可从事的工作,优设网app官方下载来源#xff1a;AI 科技评论OpenAI 近期发布了一个新的训练环境 CoinRun#xff0c;它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标#xff0c;而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监… 来源AI 科技评论OpenAI 近期发布了一个新的训练环境 CoinRun它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术例如 Dropout 和 Batch Normalization。但是在 CoinRun 的泛化机制中OpenAI 的研究人员们发现这些方法其实有用并且他们更早开发的强化学习会对特定的 MDP 过拟合。 CoinRun 在复杂性方面取得了令人满意的平衡这个环境比传统平台游戏如《刺猬索尼克》要简单得多但它仍是对现有算法的泛化性的有难度的挑战。泛化挑战任务间的泛化一直是当前深度强化学习(RL)算法的难点。虽然智能体经过训练后可以解决复杂的任务但他们很难将习得经验转移到新的环境中。即使人们知道强化学习智能体倾向于过拟合——也就是说不是学习通用技能而更依赖于他们环境的细节——强化学习智能体始终是通过评估他们所训练的环境来进行基准测试。这就好比在监督学习中对你的训练集进行测试一样之前的强化学习研究中已经使用了 Sonic 游戏基准、程序生成的网格世界迷宫以及通用化设计的电子游戏 AI 框架来解决这个问题。在所有情况下泛化都是通过在不同级别集合上的训练和测试智能体来进行度量的。在 OpenAI 的测试中在 Sonic 游戏基准中受过训练的智能体在训练关卡上表现出色但是如果不经过精细调节fine-tuning的话在测试关卡中仍然会表现不佳。在类似的过拟合显示中在程序生成的迷宫中训练的智能体学会了记忆大量的训练关卡而 GVG-AI 智能体在训练期间未见过的难度设置下表现不佳。游戏规则CoinRun 是为现有算法而设计的一个有希望被解决的场景它模仿了 Sonic 等平台游戏的风格。CoinRun 的关卡是程序生成的使智能体可以访问大量且易于量化的训练数据。每个 CoinRun 关卡的目标很简单越过几个或静止或非静止的障碍物并收集到位于关卡末尾的一枚硬币。 如果碰撞到障碍物智能体就会立即死亡。环境中唯一的奖励是通过收集硬币获得的而这个奖励是一个固定的正常数。 当智能体死亡、硬币被收集或经过1000个时间步骤后等级终止。每个关卡的 CoinRun 设置难度从 1 到 3 .上面显示了两种不同的关卡难度-1左和难度-3右评估泛化OpenAI 训练了 9 个智能体来玩 CoinRun每个智能体都有不同数量的可用训练关卡。其中 8 个智能体的训练关卡数目从 100 到 16000 不等最后一个智能体的关卡数目不受限制因此它也永远不会经历相同的训练关卡。OpenAI 使用一个常见的 3 层卷积网络架构他们称之为Nature-CNN在其上训练智能体的策略。他们使用近端策略优化(PPO)对智能体进行了训练总共完成了 256M 的时间步骤。由于每轮训练平均持续 100 个时间步骤具有固定训练集的智能体将会看到每个相同的训练级别数千到数百万次。而最后那一个不受限制的智能体经过不受限制的集合训练则会看到约 200 万个不同的关卡每个关卡一次。OpenAI 收集了数据并绘制出了下面的图每个点表示智能体在 10000 轮训练中的表现的平均值。在测试时使用智能体进行从未见过的关卡。他们发现当训练关卡数目低于 4000 时就会出现严重的过拟合。事实上即使有 16000 个关卡的训练仍会出现过拟合现象不出所料接受了不受限水平训练的智能体表现最好因为它可以访问最多的数据。这些智能体用下图中的虚线表示。他们将 Nature-CNN 基线与 IMPALA 中使用的卷积网络进行了比较发现 IMPALA- cnn 智能体在任何训练集下的泛化效果都要好得多如下所示。左最终训练和测试cnn - nature agent的性能经过256M的时间步长横轴是训练关卡数目。右最终训练并测试IMPALA-CNN agent的性能经过256M的时间步长横轴是训练关卡数目提高泛化性能在接下来的实验中OpenAI 使用了 500 个CoinRun级别的固定训练集。OpenAI 的基准智能体在如此少的关卡数目上泛化这使它成为一个理想的基准训练集。他们鼓励其他人通过在相同的 500 个关卡上进行训练来评估他们自己的方法直接比较测试时的性能。 利用该训练集他们研究了几种正则化技术的影响:dropout 当一个复杂的前馈神经网络在小的数据集上训练时容易造成过拟合。为了防止这种情况的发生可以通过在不同的时候让不同的特征检测器不参与训练的做法来提高神经网络的性能和 L2 批量正则化就是在深度神经网络训练过程中让每一层神经网络的输入都保持相同分布的批标准化两者都带来了更好的泛化性能而 L2 正则化的影响更大数据增强和批量标准化数据增强和批量标准化都显著改善了泛化。环境随机性与前面提到的任何一种技术相比具有随机性的训练在更大程度上改善了泛化(详见论文 https://arxiv.org/abs/1812.02341)。额外的环境OpenAI 还开发了另外两个环境来研究过拟合一个名为 CoinRun-Platforms 的 CoinRun 变体和一个名为 RandomMazes 的简单迷宫导航环境。 在这些实验中他们使用了原始的 IMPALA-CNN 架构和 LSTM因为他们需要足够的内存来保证在这些环境中良好地运行。在 CoinRun-Platforms 中智能体试图在 1000 步时限内收集几个硬币。硬币被随机地分散在关卡的不同平台上。在 CoinRun-Platforms 中关卡更大、更固定因此智能体必须更积极地探索偶尔还要回溯其步骤。在 CoinRun-Platforms 上经过 20 亿个时间步骤后的最终训练和测试性能横轴是训练关卡数目当他们在基线智能体实验中测试运行 CoinRun-Platforms 和 RandomMazes 时智能体在所有情况下都非常严重过拟合。在 RandomMazes 中他们观察到特别强的过拟合因为即使使用 20,000 个训练关卡是仍然与无限关卡的智能体存在相当大的泛化差距。RandomMazes中的一个级别显示智能体的观察空间左。横轴是训练关卡数目下一步OpenAI 的结果再次揭示了强化学习中潜在的问题。使用程序生成的 CoinRun 环境可以精确地量化这种过拟合。有了这个度量研究人员们可以更好地评估关键的体系结构和算法决策。他相信从这个环境中吸取的经验教训将适用于更复杂的环境他们希望使用这个基准以及其他类似的基准向具有通用泛化能力的智能体迭代前进。对于未来的研究OpenAI 建议如下:研究环境复杂性与良好泛化所需的关卡数量之间的关系调查不同的循环体系结构是否更适合在这些环境中进行泛化探索有效结合不同正则化方法的方法未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.pierceye.com/news/644798/

相关文章:

  • 商城网站租服务器安全不怎么做和美团一样的网站
  • 网站建设 sql 模版做网站的工具 论坛
  • 万网虚拟主机两个网站权重域名做网站有用么
  • 门户网站是指六盘水做网站
  • 自助建站系统免费加盟设计用哪些网站有哪些
  • 太原制作公司网站无锡网站优化公司
  • html5 wap网站模板动画广州网站建设 信科公司
  • 西安门户网站开发wordpress如何在文章底部添加目录
  • 设计婚纱网站宁波网站优化服务
  • 建设电子商务网站的花费那些公司做网站比较厉害
  • 桂林建站平台哪家好东莞百度快速排名提升
  • 网页设计框架哈尔滨网络优化推广公司
  • 深圳专业做网站技术西安网站设计报价
  • 做电影资源网站动图制作网站
  • 网站域名免费申请深圳龙华怎么样
  • 织梦建设手机网站wordpress中portfolio
  • 网站开发的检索速度在啥范围之内设计网站大全网
  • 外国人学做中国菜的网站php购物网站开发成品
  • 手机网站专题网站建设私活
  • 自建网站 备案视频号广告推广
  • 青岛网站优化东莞市场监督管理局官网
  • 深圳珠宝网站设计临沂seo优化
  • 东莞网站建项目代理
  • 心理咨询网站开发营销型网站的建设要求都有什么
  • 优化网站要怎么做中国外协机械加工订单网
  • 运动健身型网站开发永久网站空间
  • 好的网站建设公司排名小程序怎么引流推广
  • 建设部网站 光纤到户平顶山 网站建设公司
  • 网站建设费计入哪个科目赛罕区城乡建设局网站
  • 计算机协会网站模板如何做微信下单小程序