当前位置: 首页 > news >正文

减肥网站源码wordpress中文客户端

减肥网站源码,wordpress中文客户端,室内设计师参考网站,什么网站做顶置便宜文章目录0.引言1.算法原理2.仿真0.引言 \qquad本文是逆强化学习系列的第2篇#xff0c;其余博客传送门如下#xff1a; 逆强化学习0-Introduction 逆强化学习1-学徒学习 \qquad最大熵学习是2008年出现的方法#xff0c;原论文#xff08;链接见【逆强化学习0】的博客#… 文章目录0.引言1.算法原理2.仿真0.引言 \qquad本文是逆强化学习系列的第2篇其余博客传送门如下 逆强化学习0-Introduction 逆强化学习1-学徒学习 \qquad最大熵学习是2008年出现的方法原论文链接见【逆强化学习0】的博客使用的Reward的函数仍然是线性模型但是优化的思想和之前谈到的学徒学习有本质差别由于需要一些概率论和随机过程分析课程的知识原paper的理论也十分晦涩难懂。本人凭借粗浅的理解给大家一个浅显易懂的解释。 原会议的presentationPPT永久免费 原paper见部分0- Introduction部分 GitHub源代码 本文点赞破百解锁额外代码DQNmaxEnt \qquad学徒学习APP是最大化间隙策略MMP的一种扩展通过求解满足最大化间隙的Reward来计算Reward从而使得Lean的行为越来越趋向于Expert但又不好于Expert这种方法往往叫做Feature Matching。其缺点在于对于存在多种合理的Reward的函数或者Expert存在多种次优轨迹时该方法就无能为力了。APP本质是有约束优化问题而优化变量是feature的discount-expectation基向量的坐标θ\thetaθ。然而对于每一个策略π\piπ而言都可能存在多个Reward函数使其最优。当演示了次优行为时需要多个策略混合来匹配特征计数这就让Feature Matching这件事在Expert轨迹存在多个Feature期望值时变得非常模糊。在APP中这是通过求平均的方式解决的然而这明显不是一个合理的解决方案。 \qquad最大熵学习MaxEnt同样是Feature Matching的方法与APP不同的是其采用了一种有原则的方式消除了这种匹配歧义。而这种原则就是最大熵原则该原则基于一种假设——即专家系统轨迹生成自己的专家特征期望的策略是最优轨迹即下文的约束条件1. \qquad可以简单的理解为在APP中作为损失函数的特征匹配在MaxEnt中被放入了约束条件中而MaxEnt正是在满足这个约束条件的情况下要求以θ\thetaθ为Reward函数参数时轨迹概率分布P(ζ∣θ)P(\zeta|\theta)P(ζ∣θ)的信息熵最大。 \qquad至于为什么要求信息熵最大原paper中并无详细说明只是指出这已经在reference里面有了相关研究本人查阅相关资料给出以下几个理由供大家参考 物理系统的稳定状态通常趋向于熵最大只有P恒为0的概率分布熵才为0正态分布是所有概率分布中熵最大的会议presentation里面说均匀分布的信息熵最大确认过是个错误结论试想一下均匀分布的分布区间有限而正态无限熵越大先验信息越少最大熵估计也是统计决策理论中常用的一种估计原则 1.算法原理 下面就简单介绍一下这个熵对于连续变量而言信息熵通常表示为 Ent∫x∽π−p(x)logp(x)Ent\int_{x\backsim \pi}-p(x)logp(x)Ent∫x∽π​−p(x)logp(x) 对于强化学习任务而言最大化信息熵写为 max⁡∑ζ∈D−P(ζ∣θ)logP(ζ∣θ)s.t.{∑ζ∈DP(ζ∣θ)fζf~∑ζ∈DP(ζ∣θ)1\begin{aligned} \max\sum_{\zeta \in D}-P(\zeta| \theta)logP(\zeta| \theta) \\ s.t. \begin{cases} \sum_{\zeta\in D}P(\zeta| \theta)f_\zeta \widetilde{f} \\[2ex] \sum_{\zeta \in D}P(\zeta | \theta)1 \\ \end{cases} \end{aligned}s.t.​maxζ∈D∑​−P(ζ∣θ)logP(ζ∣θ)⎩⎨⎧​∑ζ∈D​P(ζ∣θ)fζ​f​∑ζ∈D​P(ζ∣θ)1​​ 构造拉格朗日函数 L(P,λ,μ)∑ζ∈D[P(ζ∣θ)logP(ζ∣θ)λ(P(ζ∣θ)fζ−f~)μ(P(ζ∣θ)−1)]L(P,\lambda,\mu) \sum_{\zeta \in D}[P(\zeta|\theta)logP(\zeta|\theta)\lambda (P(\zeta|\theta)f_{\zeta}-\widetilde{f})\mu(P(\zeta|\theta)-1)]L(P,λ,μ)ζ∈D∑​[P(ζ∣θ)logP(ζ∣θ)λ(P(ζ∣θ)fζ​−f​)μ(P(ζ∣θ)−1)] 应用拉格朗日函数的KKT条件 ∇LP∑ζ∈DlogP(ζ∣θ)1λfζμ0①∇Lλ∑ζ∈DP(ζ∣θ)fζ−f~0②∇Lμ∑ζ∈DP(ζ∣θ)−10③\begin{array} {cl} \nabla L_P \sum_{\zeta \in D}logP(\zeta|\theta)1\lambda f_{\zeta}\mu0 ①\\ \nabla L_{\lambda}\sum_{\zeta\in D}P(\zeta| \theta)f_\zeta - \widetilde{f} 0 ②\\ \nabla L_{\mu} \sum_{\zeta \in D}P(\zeta | \theta)-10 ③ \end{array} ∇LP​∇Lλ​∇Lμ​​∑ζ∈D​logP(ζ∣θ)1λfζ​μ0∑ζ∈D​P(ζ∣θ)fζ​−f​0∑ζ∈D​P(ζ∣θ)−10​①②③​ 由①③式得 P(ζ∣θ)exp(−1−μ−λfζ)∑ζ∈Dexp(−1−μ−λfζ)P(\zeta|\theta)\frac{exp(-1-\mu-\lambda f_{\zeta})}{\sum_{\zeta \in D}exp(-1-\mu-\lambda f_{\zeta})}P(ζ∣θ)∑ζ∈D​exp(−1−μ−λfζ​)exp(−1−μ−λfζ​)​ \qquad光靠这个式子肯定是解不出最优的θ\thetaθ的这就要提到原paper的另一个假设——使用θ\thetaθ参数的Reward函数Rθ(τ)R_\theta(\tau)Rθ​(τ)时ζ\zetaζ轨迹的概率P(ζ∣θ)P(\zeta|\theta)P(ζ∣θ)正比于Rθ(ζ)R_{\theta}(\zeta)Rθ​(ζ)的自然指数再加上概率归一性约束可得专家系统策略的轨迹概率为 P(ζ∣θ)exp(Rθ(ζ))∫τ∈D[exp(Rθ(τ))dτ]P(\zeta|\theta)\frac{exp(R_\theta(\zeta))}{\int_{\tau\in D}\left[{exp(R_{\theta}(\tau))}{\rm d}\tau \right]} P(ζ∣θ)∫τ∈D​[exp(Rθ​(τ))dτ]exp(Rθ​(ζ))​ 需要注意的是这里的R(θ)R(\theta)R(θ)指的是累积奖赏而非单步奖赏。 上式中的ZZZ在paper中又被称为partial function原文是已知原系统的dynamic model的即已知系统的状态转移概率。在不知道状态转移概率时ZZZ无法直接求得通常也有三种方法 拉普拉斯近似Laplace Approximation值函数近似Value Function Approximation采样近似Sample-Based Approximation 有读者肯定会疑问原paper中给出的损失函数不是最大信息熵而是最大似然这又是为什么。原paper中给出了一个让人难以理解的解释 Maximizing the entropy of the distribution over paths subject to the feature constraints from observed data implies that we maximize the likelihood of the observed data under the maximum entropy (exponential family) distribution derived above (Jaynes 1957). ——即从观测数据上满足feature matching的约束约束1的条件下最大化轨迹分布的信息熵等价于在最大信息熵分布的条件下从观测数据最大化似然。本文不对此深究感兴趣的朋友可以研究一下下面这篇论文 Jaynes, E. T. 1957. Information theory and statistical mechanics. Physical Review 106:620–630. \qquad而假设是专家系统是最大熵分布的因此对专家轨迹概率使用最大似然得到 L(θ)∑ζ∈Elogp(ζ∣θ)L(\theta)\sum_{\zeta\in E}logp(\zeta|\theta)L(θ)ζ∈E∑​logp(ζ∣θ) 即轨迹概率的最大似然。代入最大熵分布下的轨迹概率公式其中E代表Expert的轨迹空间而D代表Agent的轨迹空间可以认为是全部轨迹空间E的采样空间是与损失函数直接挂钩的而D的采样空间则用来对ZZZ估计的 L(θ)∑τ∈Elogp(τ∣θ)∑τ∈Elog1Zexp(Rθ(τ))∑τ∈ERθ(τ)−MlogZ∑τ∈ERθ(τ)−Mlog∑τ∈Dexp(Rθ(τ))∇θL∑τ∈EdRθ(τ)dθ−M1∑τ∈Dexp(Rθ(τ))∑τ∈D[exp(Rθ(τ))dRθ(τ)dθ]∑τ∈EdRθ(τ)dθ−M∑τ∈D[exp(Rθ(τ))∑τ∈Dexp(Rθ(τ))dRθ(τ)dθ]∑τ∈EdRθ(τ)dθ−M∑τ∈D[p(τ∣θ)dRθ(τ)dθ]∑τ∈EdRθ(τ)dθ−M∑si∈S[p(s∣θ)drθ(s)dθ]\begin{aligned} L(\theta) \sum_{\tau\in E}logp(\tau|\theta)\\ \sum_{\tau\in E}log\frac{1}{Z}exp(R_{\theta}(\tau))\\ \sum_{\tau\in E}R_{\theta}(\tau)-MlogZ\\ \sum_{\tau\in E}R_{\theta}(\tau)-Mlog\sum_{\tau\in D}exp(R_{\theta}(\tau))\\ \nabla _{\theta}L\sum_{\tau \in E}\frac{dR_{\theta}(\tau)}{d\theta}-M\frac{1}{\sum_{\tau\in D}exp(R_{\theta}(\tau))}\sum_{\tau\in D}\left[exp(R_{\theta}(\tau))\frac{dR_{\theta}(\tau)}{d\theta}\right]\\ \sum_{\tau \in E}\frac{dR_{\theta}(\tau)}{d\theta}-M\sum_{\tau\in D}\left[\frac{exp(R_{\theta}(\tau))}{\sum_{\tau\in D}exp(R_{\theta}(\tau))}\frac{dR_{\theta}(\tau)}{d\theta}\right]\\ \sum_{\tau \in E}\frac{dR_{\theta}(\tau)}{d\theta}-M\sum_{\tau\in D}\left[p(\tau|\theta)\frac{dR_{\theta}(\tau)}{d\theta} \right]\\ \sum_{\tau \in E}\frac{dR_{\theta}(\tau)}{d\theta}-M\sum_{s_i\in S}\left[p(s|\theta)\frac{dr_{\theta}(s)}{d\theta} \right]\\ \end{aligned} L(θ)∇θ​L​τ∈E∑​logp(τ∣θ)τ∈E∑​logZ1​exp(Rθ​(τ))τ∈E∑​Rθ​(τ)−MlogZτ∈E∑​Rθ​(τ)−Mlogτ∈D∑​exp(Rθ​(τ))τ∈E∑​dθdRθ​(τ)​−M∑τ∈D​exp(Rθ​(τ))1​τ∈D∑​[exp(Rθ​(τ))dθdRθ​(τ)​]τ∈E∑​dθdRθ​(τ)​−Mτ∈D∑​[∑τ∈D​exp(Rθ​(τ))exp(Rθ​(τ))​dθdRθ​(τ)​]τ∈E∑​dθdRθ​(τ)​−Mτ∈D∑​[p(τ∣θ)dθdRθ​(τ)​]τ∈E∑​dθdRθ​(τ)​−Msi​∈S∑​[p(s∣θ)dθdrθ​(s)​]​ 归一化的损失函数为 ∇θL‾1M∑τ∈EdRθ(τ)dθ−∑si∈S[p(s∣θ)drθ(s)dθ]\nabla _{\theta}\overline{L}\frac{1}{M}\sum_{\tau \in E}\frac{dR_{\theta}(\tau)}{d\theta}-\sum_{s_i\in S}\left[p(s|\theta)\frac{dr_{\theta}(s)}{d\theta} \right]∇θ​LM1​τ∈E∑​dθdRθ​(τ)​−si​∈S∑​[p(s∣θ)dθdrθ​(s)​] 其中M是专家轨迹的条数如果状态空间是无限的则不能直接套用此公式但不代表无法解决。 对于线性Reward轨迹的累积Reward为 Rθ(ζ)θTfζ∑sj∈ζθTfsjR_{\theta}(\zeta)\theta ^T f_{\zeta}\sum_{s_j\in \zeta}\theta ^T f_{s_j}Rθ​(ζ)θTfζ​sj​∈ζ∑​θTfsj​​ Expert产生的Feature Expectation为 f~1m∑ifζ~i\widetilde{f}\frac{1}{m}\sum_{i}f_{\widetilde{\zeta}_i}f​m1​i∑​fζ​i​​ 损失函数梯度可表示为 ∇θLf~−∑si∈SDsifsi\nabla_{\theta}L\widetilde{f}-\sum_{s_i\in S}D_{s_i}f_{si}∇θ​Lf​−si​∈S∑​Dsi​​fsi​ 其中D为状态访问频次State Visitiation Frequency可以通过不断与环境互动近似出。 总结一下这个公式的推导需要注意一下几点 最大熵原则是建立在Feature Matching的基础上的而轨迹概率分布的公式则是由最大熵原则约束推导出的最大熵原则的轨迹概率分布公式未知配分函数项Z是在全部轨迹集上求和因此是使用Agent的轨迹进行近似最大化专家系统的轨迹概率似然其实是一个与原问题等价的优化问题因此损失函数导数的第一项是在Expert的Demonstrations上求和或求积分而不是Agent的。 2.仿真 \qquad本文的仿真平台参照了github上的资源并进行了略微修改仿真环境在学徒学习那篇有了详细介绍在此就不再赘述了 GitHub源代码 本文点赞破百解锁额外代码DQNmaxEnt 使用方法仍然是直接运行train.py即可注意需要在mountaincar/maxent/的目录下运行。和学徒学习的代码一样也是基于Q-Table的。 \qquad源代码中对Feature没有做任何的提取直接将每个状态20个位置采样×20个速度采样总共400个离散状态作为Feature。假设不同特征之间是解耦的Feature Matrix就是对角矩阵即因此状态访问频次×特征即特征访问频次。 \qquad在源代码中learner_feature_expectations即特征访问频次而归一化之后即为梯度的第二项 源代码的其中一部分如下 expert expert_feature_expectations(feature_matrix, demonstrations)learner_feature_expectations np.zeros(n_states)theta -(np.random.uniform(size(n_states,)))episodes, scores [], []for episode in range(30000):state env.reset()score 0if (episode ! 0 and episode 10000) or (episode 10000 and episode % 5000 0):learner learner_feature_expectations / episodemaxent_irl(expert, learner, theta, theta_learning_rate)while True:state_idx idx_state(env, state)action np.argmax(q_table[state_idx])next_state, reward, done, _ env.step(action)irl_reward get_reward(feature_matrix, theta, n_states, state_idx)next_state_idx idx_state(env, next_state)update_q_table(state_idx, action, irl_reward, next_state_idx)learner_feature_expectations feature_matrix[int(state_idx)]看完原github的程序本人还有一个疑点即是maxent.py文件中的一段 def maxent_irl(expert, learner, theta, learning_rate):gradient expert - learnertheta learning_rate * gradient# Clip thetafor i in range(len(theta)):if theta[i]0:theta[i]0\qquad原文中的clip theta实际上是防止theta超过0类似于深度学习中的梯度截断操作然而这个操作在我尝试多次之后并无用处而且也没有任何意义因为在theta0后也会在下一次迭代时通过学习使得theta重新0。本人的建议是增加一个学习率递减的schedule并且将clip的范围从[-inf,0]修改到[-0.5,0.5]可以获得相对稳定的学习率曲线下面分别是clip(-0.5,0.5)和clip(-0.5,0)的对比: clip(-0.5,0.5)clip(-0.5,0) \qquad可以发现增加一部分梯度的正向范围反而更有利于学习这是由于expert-learn的极小值是在0处取得的然而在学习率固定时改函数会在离散迭代时在0附近震荡梯度若在0处截断会导致学习率锐减为0可能正是原作者用意。 下面是test.py保存的几组gif的图 Reward-158Reward-138Reward-146 希望本文对您有帮助谢谢阅读
http://www.pierceye.com/news/817424/

相关文章:

  • 自适应网站制作官网网站域名与建设
  • 淘宝网站开发成本武进建设局网站进不去
  • 比较好网站制作公司行业协会网站织梦模板
  • 牛人网络网站像wordpress一样的网站吗
  • 那种做任务的网站叫什么wordpress 数据库 旧Ip
  • 制作深圳网站建设百度推广广告收费标准
  • 电影采集网站建设国产做爰全免费的视频网站
  • 集团网站建设特点 助君长春seo公司网站
  • 网站域名备案 更改吗在线做文档的网站
  • 青海网站制作多少钱做网站教程pdf
  • dw做网站背景音乐wordpress 获取当前文章id
  • 上海鹭城建设集团网站icp备案查询
  • 企业站用什么程序做网站深圳手机报价网站
  • 网站开发国外研究状况建设部相关网站
  • 租赁网站开发台州网站优化
  • 网站开发人员工工资网站开发一个支付功能要好多钱
  • 工程建设管理网站源码网站怎样做地理位置定位
  • 太仓公司网站建设电话网络公关名词解释
  • 江门网站建设策划什么是网络营销职能
  • 北京网站托管毕设做网站是不是太low
  • 企业网站建设费用属管理费用吗重庆网站建设制作设计公司哪家好
  • 深圳营销型网站需要多少钱做网站个体户经营范围
  • php 手机网站 上传图片晋州做网站的联系电话
  • 云天下网站建设做抖音seo排名软件是否合法
  • 网站开发合同管辖权异议龙岩网上办事大厅官网
  • 建网站费用明细海口建设网站
  • 网站页面设计说明怎么写影视小程序源码
  • 传媒网站制作网站申请建设
  • 前端做项目的网站新密市城乡建设局网站
  • 网站app建设方案智能外呼系统