当前位置: 首页 > news >正文

商城网站建设要多少钱荆楚网

商城网站建设要多少钱,荆楚网,赚钱软件app,咸阳网站推广Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别#xff1f; 猜想#xff1a;本文是基于随机网络蒸馏提出的intrin…Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别 猜想本文是基于随机网络蒸馏提出的intrinsic reward设计方式好奇心是基于前向动力学模型的误差设计的intrinsic reward。 1、Motivation 依然旨在为智能体的探索提供一种有效的探索奖励文章还提供一种灵活的结合intrinsic 和 extrinsic reward的方法。 论文使用随机网络蒸馏算法。 问题以往的论文探索奖励是基于智能体过去经验训练的网络的预测误差来量化新经验的新颖性但是最大化这种预测误差的智能体往往会被输入是随机的transition所吸引。举例来说就是如果预测问题是在给定当前观察和动作(前向动态)的情况下预测下一个观察结果那么对于一个transition(st,at,r,st1)输入的st是例如电视雪花一样的随机噪声那么预测出来的st1肯定是误差最大的因此智能体会陷入这种transition中。 于是本论文提出新的方案解决这种问题即在当前观测值的基础上预测一个固定的随机初始化神经网络的输出。 为了结合exploration bonus和extrinsic rewards文章引入了PPO算法的修改版本。 2、方法 Target网络一个固定且随机初始化的网络。 Predictor网络在智能体收集的数据上进行训练的网络。 Target网络对智能体的observation进行映射 f : O → R k f:\mathcal{O}\to\mathbb{R}^k f:O→Rk Predictor网络也对智能体的observation进行映射 f ^ : O → R k \hat{f}:\mathcal{O}\to\mathbb{R}^k f^​:O→Rk 并且通过梯度下降来最小化期望MSE ∥ f ^ ( x ; θ ) − f ( x ) ∥ 2 \|\hat{f}(\mathrm{x};\theta)-f(\mathrm{x})\|^2 ∥f^​(x;θ)−f(x)∥2 以此来更新Predictor网络的参数θ如果observation是Predictor网络没有训练过的那么预测出来的误差将比较高以此可以来作为智能体的探索奖励来推动智能体探索新颖的环境。 3、预测误差的来源以及其他模型的问题 训练数据量。对于Predictor很少看到的类似的例子的observation预测误差很高。随机性。由于目标函数是随机的因此预测误差很高。随机的Transition是前向动力学模型预测误差的来源。模型错误规范。因为缺少必要的信息或者模型类太有限无法适应目标函数的复杂性使得预测误差很高。学习动力。因为优化过程未能在模型类中找到最接近目标函数的预测器所以预测误差很高。 因素1是能用预测误差来作为exploration bonus的原因。因素2会导致基于forward dynamics model的预测误差为exploration bonus的智能体陷入局部熵源中例如“noisy-TV”。 有论文提出了改进方法来避免因素2和3带来的不良影响问题但是这些方法往往是计算昂贵的难以扩展。 而RND方法消除了因素2和3带来的不良影响因为Target网络是被固定下来的并且在Predictor网络的模型类内。 tips【伏羲讲堂】强化学习的探索方法简介 - 知乎 (zhihu.com)对此处有详细解释 4、奖励和Observation归一化 在不同的环境和不同的时间点奖励的规模可能会有很大的不同所以要对exploration bonus进行归一化处理。 对observation进行归一如果缺乏归一化处理嵌入的方差可能会非常低并且携带的关于输入的信息很少。 5、实验 在纯intrinsic reward的实验中发现non-episodic agent比episodic agent表现得更好探索到的房间更多。 针对状态价值结合方式 V V E V I VV_{E}V_{I} VVE​VI​ 实验得出结论在使用两个状态价值函数即状态Extrinsic reward价值函数和状态intrinsic reward价值函数的情况下使用non-episodic的intrinsic reward结合episodic的extrinsic reward这种组合要优于都是episodic的intrinsic reward和extrinsic reward的组合。 而在episodic的设置中使用单个的状态价值函数来直接估计VE和VI的结合分别使用两个状态价值函数分别估计VE和VI效果差不多但是文章的实验还是基于两个状态价值函数这样做是为了将VE和VI与各自不同的特征结合起来。 实验研究extrinsic reward和intrinsic reward折扣因子的性能发现外部奖励的折扣因子越高性能越好而对于内在奖励它会损害探索。实验发现当extrinsic reward的折扣因子γE为0.999intrinsic reward的折扣因子γI为0.99时性能最好但是当γI增加到0.999时性能反而受到了损害。 实验表明在使用不同数量并行环境进行实验时通过调整批次大小并保持内在奖励递减速率恒定能够帮助策略模型有效地利用那些临时的、随着时间消失的内在奖励以促进对于新颖状态的探索和学习。 实验表明基于RNN的策略要更频繁地优于基于CNN的策略因为基于RNN的策略可以保持总结过去的状态。 6、结论 RND探索奖励足以处理局部探索即探索短期决策的结果如是否与特定对象互动或避免它。然而涉及长期协调决策的全局勘探超出了RND方法的范围。 文章指出未来仍然有需要继续研究的地方举了个例子在Montezuma’s Revenge游戏的第一关中智能体要想通关必须打开进入一个由两扇门锁着的房间这就需要两把钥匙。但是整个环境中一共有6扇门和4把钥匙这就意味着智能体需要保留4把钥匙中的2把以留到最后的两扇门中来打开但是打开前面4扇门又能够立即获得外部奖励这意味着智能体需要有足够的内在奖励来使智能体放弃打开前4扇门中的2扇以平衡由于早期使用密钥而失去的外部奖励。可是RND方法并不能很好的实现这种策略。 7、RNDPPO算法的伪代码
http://www.pierceye.com/news/310889/

相关文章:

  • 设计个人网站的步骤建设工程合同无效的情形有哪些
  • 网站竞争对手的选定一般参考什么标准的建设网站长沙
  • 通州个人做网站营销型网站建设开发
  • 乌海市网站建设基于asp的网络课程网站开发
  • 关掉自己做的网站网页设计与制作服务公司
  • 视频相亲网站开发成本分类信息网站推广的意义
  • 域名和网站网站开发项目视频
  • 色流网站怎么做东营建筑信息网
  • 做能支付的网站贵吗网络安全工程师考证
  • 下载类网站开发条件环球资源网成立时间
  • 客户如何找到做网站宣传的律师免费虚拟主机空间
  • 点击网站出现微信二维码的链接怎么做网架制造厂
  • 服装网站建设环境分析一家专门做房产特卖的网站
  • 网站推广方式方法品牌建设的阶段和步骤是什么
  • 游戏开发平台seo的定义
  • 北京住房和城乡建设部网站官网可信赖的购物网站建设
  • 网站百度一直没有收录热狗网站关键词优化
  • 视频网站开发价格本地app开发公司电话
  • 网站设计风格介绍北京市建设工程信息网如何登录
  • 怎么创建一个属于自己的网站怎么制作做网站
  • 大学加强网站建设与管理的通知莱芜金点子租房信息港
  • 网站的营销与推广杭州五旋科技网站建设怎么样
  • 莱芜四中网站如何优化网站目录结构
  • 深圳公司网站设计哪家好北京装修公司十大排名
  • 如何制作一个好网站做国际网站找阿里
  • 南京制作网站wordpress网站源码上传
  • 做装修效果图的网站有哪些软件泉州营销型网站设计
  • 让路由器做网站服务器一级建造师价格最新行情
  • 白沟做网站wordpress批量编辑
  • 网站充值支付宝收款怎么做天元建设集团有限公司第七建筑工程公司