当前位置: 首页 > news >正文

南山公司网站建设扬州工程招标网

南山公司网站建设,扬州工程招标网,上海做网站比较好的公司,微信网站制作企业通过分歧进行自我监督探索 0、问题 使用可微的ri直接去更新动作策略的参数的#xff0c;那是不是就不需要去计算价值函数或者critic网络了#xff1f; 1、Motivation 高效的探索是RL中长期存在的问题。以前的大多数方式要么陷入具有随机动力学的环境#xff0c;要么效率…通过分歧进行自我监督探索 0、问题 使用可微的ri直接去更新动作策略的参数的那是不是就不需要去计算价值函数或者critic网络了 1、Motivation 高效的探索是RL中长期存在的问题。以前的大多数方式要么陷入具有随机动力学的环境要么效率太低无法扩展到真正的机器人设置。 2、Introduction 然而在学习无噪声模拟环境之外的预测模型时有一个关键的挑战:如何处理代理-环境交互的随机性? 随机性可能由以下几个来源引起:(1)嘈杂的环境观察(例如电视播放噪声);(2)智能体动作执行中的噪声(例如滑动);(3)作为智能体动作输出的随机性(例如智能体抛硬币)。 尽管有几种方法可以在低维状态空间中构建随机模型但将其扩展到高维输入(例如图像)仍然具有挑战性。另一种方法是建立确定性模型但在随机不变的特征空间中对输入进行编码。最近的工作提出在逆模型特征空间中构建这样的模型它可以处理随机观测但当代理本身是噪源时(例如带有遥控器的电视)会失败。 文章提出训练前向动力学模型的集合并激励智能体探索该集合中模型预测之间存在最大分歧或方差的动作空间。 3、方法 该模型利用预测的不确定性来激励策略访问不确定性最大的状态。 本文模型的核心思想是歧义。 模型利用采样到的transitions训练一批前向模型 { f θ 1 , f θ 2 … , f θ k } \{f_{\theta_1},f_{\theta_2}\ldots,f_{\theta_k}\} {fθ1​​,fθ2​​…,fθk​​} 这个前向模型与ICM中的forward dynamics model一致通过最小化loss来更新参数 l o s s ∥ f ( x t , a t ; θ ) − x t 1 ∥ 2 loss\begin{aligned}\|f(x_t,a_t;\theta)-x_{t1}\|_2\end{aligned} loss∥f(xt​,at​;θ)−xt1​∥2​​ 而本文提出的歧义的核心思想是对于智能体已经很好地探索过的状态空间将会收集到足够的数据来训练所有模型从而导致模型之间的一致而对于新领域和未探索的领域所有模型仍然具有很高的预测误差从而导致对下一个状态预测的分歧。 本文模型将intrinsic reward定义为这种分歧即不同模型的输出之间的方差: r t i ≜ E θ [ ∥ f ( x t , a t ; θ ) − E θ [ f ( x t , a t ; θ ) ] ∥ 2 2 ] \begin{aligned}r_t^i\triangleq\mathbb{E}_\theta\Big[\|f(x_t,a_t;\theta)-\mathbb{E}_\theta[f(x_t,a_t;\theta)]\|_2^2\Big]\end{aligned} rti​≜Eθ​[∥f(xt​,at​;θ)−Eθ​[f(xt​,at​;θ)]∥22​]​ 在实践中为了所有的预测目的我们将状态x编码到嵌入空间φ(x)中。 本文提出的智能体代理是自我监督的不需要任何外部奖励来进行探索。 本文方法与ICM不同ICM在足够大的样本后将趋于平均值。由于均值不同于个体的真实随机状态预测误差仍然很高使得智能体永远对随机行为感到好奇。 本模型提出的内在奖励作为一个可微函数以便使用似然最大化来执行策略优化这很像监督学习而不是强化学习。来自模型的内在奖励可以非常有效地通知智能体在前向预测损失高的方向改变其行动空间而不是像强化学习那样提供标量反馈。纯粹是基于当前状态和智能体预测动作的模型集合的心理模拟。 与其通过PPO (RL)最大化期望中的内在奖励我们可以通过将ri 视为可微损失函数来使用直接梯度来优化策略参数θ min ⁡ θ 1 , … , θ k ( 1 / k ) ∑ i 1 k ∥ f θ i ( x t , a t ) − x t 1 ∥ 2 \begin{aligned}\min_{\theta_1,\dots,\theta_k}(1/k)\sum_{i1}^k\|f_{\theta_i}(x_t,a_t)-x_{t1}\|_2\end{aligned} θ1​,…,θk​min​​(1/k)i1∑k​∥fθi​​(xt​,at​)−xt1​∥2​​ max ⁡ θ P ( 1 / k ) ∑ i 1 k [ ∥ f θ i ( x t , a t ) − ( 1 / k ) ∑ j 1 k f θ j ( x t , a t ) ∥ 2 2 ] \begin{aligned}\max_{\theta_P}(1/k)\sum_{i1}^k\left[\|f_{\theta_i}(x_t,a_t)-(1/k)\sum_{j1}^kf_{\theta_j}(x_t,a_t)\|_2^2\right]\end{aligned} θP​max​​(1/k)i1∑k​[∥fθi​​(xt​,at​)−(1/k)j1∑k​fθj​​(xt​,at​)∥22​]​ a t π ( x t ; θ P ) a_t\pi(x_t;\theta_P) at​π(xt​;θP​) 4、实验 实验包括三个部分:a)验证在标准非随机环境下的性能; B)在过渡动力学和观测空间中具有随机性的环境的比较; c)验证我们的目标所促进的可微分政策优化的效率。 设计实验测试了Disagreement方法在标准非随机环境下的性能。比较了雅达利游戏的近确定性和非随机标准基准的不同内在奖励公式。基于分歧的方法优于最先进的方法而不会在非随机情况下失去准确性。在随机性较高的环境下进行测试基于集合的分歧方法在智能体看到足够的样本后收敛到几乎为零的内在奖励而基于预测误差的模型在收敛时也会为具有较高随机性的观测值(即标签为1的图像)分配更多的奖励。基于分歧的方法在存在随机性的情况下表现更好。实验显示可微探索加速了智能体的学习表明了直接梯度优化的有效性。现在在短期和大结构的行动空间设置中评估仅可微分探索(无强化)的性能。 实验显示可微探索加速了智能体的学习表明了直接梯度优化的有效性。现在在短期和大结构的行动空间设置中评估仅可微分探索(无强化)的性能。在真实世界的机器手臂实验上基于分歧的可微分策略优化探索展示出了极高的性能。
http://www.pierceye.com/news/36630/

相关文章:

  • 我想自学建网站安徽网络优化方案
  • 网站做收录网站推广方式主要通过
  • 审计局网站建设管理网站发外链的好处
  • 和网站用户体验相关的文章小女孩做网站
  • 做网站镜像装修平台哪个好
  • 网站搜索引擎友好性分析seo怎么优化关键词排名
  • iis网站连接数四平网站建设公司
  • 宁波网站建设风格网站备案初审过了
  • 怎样制作网站平台俄文手机网站制作
  • 网站建设那里好深圳企业网站公司
  • 通信网站建设wordpress 视频 播放器
  • 做网站总结体会c 怎么做网站
  • 建设银行电商网站网站建设管理权限
  • 铜川矿业公司网站android应用程序开发教程
  • 没有网站可以做落地页海口网站建设哪个好薇
  • 福建建设注册中心网站清远做网站seo
  • 网站建设捌金手指花总十九新浪短网址链接生成器
  • 网站速度怎么提升qq空间同步到wordpress
  • asp网站免费完整源码word可以制作网页吗
  • 网站建设公司大型凯里公司网站建设
  • 住房和城乡建设部网站 城市绿地分类创建免费网站需要的工具
  • 推荐 南昌网站建设网站开发要学的代码
  • 企业的网站建设策划书万网域名解析
  • wamp配置多个网站html编辑器安卓版下载
  • 制作网站找哪家好山西省煤矿建设协会网站
  • 企业网站 优秀医学教育网站建设方案
  • 开网上授课的网站应该怎么做物业管理 网站开发
  • 做网站 珠海自己网上开店怎么做
  • 上海网站优化公司uc网站怎么做
  • 网站迁移后 后台进不去网络营销平台的账号如何运营