当前位置: 首页 > news >正文

定制型网站建设推广朋友圈信息流广告投放价格

定制型网站建设推广,朋友圈信息流广告投放价格,夏朝是谁建立的,石景山网站建设好的公司目录 0 专栏介绍1 时序差分强化学习2 策略评估原理3 策略改进原理3.1 SARSA算法3.2 Q-Learning算法 0 专栏介绍 本专栏重点介绍强化学习技术的数学原理#xff0c;并且采用Pytorch框架对常见的强化学习算法、案例进行实现#xff0c;帮助读者理解并快速上手开发。同时#… 目录 0 专栏介绍1 时序差分强化学习2 策略评估原理3 策略改进原理3.1 SARSA算法3.2 Q-Learning算法 0 专栏介绍 本专栏重点介绍强化学习技术的数学原理并且采用Pytorch框架对常见的强化学习算法、案例进行实现帮助读者理解并快速上手开发。同时辅以各种机器学习、数据处理技术扩充人工智能的底层知识。 详情《Pytorch深度强化学习》 1 时序差分强化学习 在Pytorch深度强化学习1-5详解蒙特卡洛强化学习原理中我们指出在现实的强化学习任务中转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知因此有模型强化学习在实际应用中不可行而需要免模型学习技术即假设转移概率和环境状态未知奖赏也仅是根据经验或需求设计。蒙特卡洛强化学习正是免模型学习中的一种其核心思想是使用蒙特卡洛方法来估计各个状态-动作对的值函数。通过对大量的样本进行采样并根据它们的累积奖励来评估状态-动作对的价值智能体可以逐步学习到最优策略。 本节介绍的时序差分强化学习(Temporal Difference Reinforcement Learning)则是另一类免模型学习算法它结合了动态规划和蒙特卡洛强化学习的优点用于在未知环境中进行决策。 2 策略评估原理 策略评估本质上是求解状态值函数 V π ( s ) V^{\pi}\left( s \right) Vπ(s)或状态-动作值函数 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a)数值越大表明策略回报越高。从定义出发蒙特卡洛强化学习核心是采样近似基于采样的算法通常采用增量更新方式节省内存 Q π ( s , a ) E [ R t ] ∣ s t s , a t a ≈ 1 n ∑ i 1 n R t , i n 次增量 Q π ( s , a ) × c o u n t ( s , a ) R t c o u n t ( s , a ) 1 n 次增量 Q π ( s , a ) 1 c o u n t ( s , a ) 1 ( R t − Q π ( s , a ) ) \begin{aligned}Q^{\pi}\left( s,a \right) \mathbb{E} \left[ R_t \right] \mid_{s_ts,a_ta}^{}\\\approx \frac{1}{n}\sum_{i1}^n{R_{t,i}}\\\xlongequal{n\text{次增量}}\frac{Q^{\pi}\left( s,a \right) \times \mathrm{count}\left( s,a \right) R_t}{\mathrm{count}\left( s,a \right) 1}\\\xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) \frac{1}{\mathrm{count}\left( s,a \right) 1}\left( R_t-Q^{\pi}\left( s,a \right) \right)\end{aligned} Qπ(s,a)​E[Rt​]∣st​s,at​a​≈n1​i1∑n​Rt,i​n次增量 count(s,a)1Qπ(s,a)×count(s,a)Rt​​n次增量 Qπ(s,a)count(s,a)11​(Rt​−Qπ(s,a))​ 因为采样过程通常以万次计因此可以用一个较小的正数 α \alpha α来描述超参数 α \alpha α可理解为模型的学习率 R t − Q π ( s , a ) R_t-Q^{\pi}\left( s,a \right) Rt​−Qπ(s,a)称为蒙特卡洛误差 Q π ( s , a ) n 次增量 Q π ( s , a ) α ( R t − Q π ( s , a ) ) Q^{\pi}\left( s,a \right) \xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) \alpha \left( R_t-Q^{\pi}\left( s,a \right) \right) Qπ(s,a)n次增量 Qπ(s,a)α(Rt​−Qπ(s,a)) 动态规划强化学习核心是自我迭代 Q π ( s , a ) E [ R t ] ∣ s t s , a t a ∑ s ′ ∈ S P s → s ′ a [ R s → s ′ a γ ∑ a ′ ∈ A π ( s ′ , a ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}\left( s,a \right) \mathbb{E} \left[ R_t \right] \mid_{s_ts,a_ta}^{}\sum_{s\in S}{P_{s\rightarrow s}^{a}}\left[ R_{s\rightarrow s}^{a}\gamma \sum_{a\in A}{\pi \left( s,a \right) Q^{\pi}\left( s,a \right)} \right] Qπ(s,a)E[Rt​]∣st​s,at​a​s′∈S∑​Ps→s′a​[Rs→s′a​γa′∈A∑​π(s′,a′)Qπ(s′,a′)] 根据动态特性和当前 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a)具体计算出下一次迭代的 Q π ( s , a ) Q^{\pi}\left( s,a \right) Qπ(s,a) 动态规划强化学习的优点是计算准确且效率高但无法适应无模型场景蒙特卡洛强化学习的优点是克服无模型障碍但有更新延迟现象。时序差分强化学习是动态规划与蒙特卡洛的折中 Q π ( s t , a t ) n 次增量 Q π ( s t , a t ) α ( R t − Q π ( s t , a t ) ) n 次增量 Q π ( s t , a t ) α ( r t 1 γ R t 1 − Q π ( s t , a t ) ) n 次增量 Q π ( s t , a t ) α ( r t 1 γ Q π ( s t 1 , a t 1 ) − Q π ( s t , a t ) ) ⏟ 采样 \begin{aligned}Q^{\pi}\left( s_t,a_t \right) \xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) \alpha \left( R_t-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, \xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) \alpha \left( r_{t1}\gamma R_{t1}-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, \xlongequal{n\text{次增量}}{ \underset{\text{采样}}{\underbrace{Q^{\pi}\left( s_t,a_t \right) \alpha \left( r_{t1}{ \gamma Q^{\pi}\left( s_{t1},a_{t1} \right) }-Q^{\pi}\left( s_t,a_t \right) \right) }}}\end{aligned} Qπ(st​,at​)​n次增量 Qπ(st​,at​)α(Rt​−Qπ(st​,at​))n次增量 Qπ(st​,at​)α(rt1​γRt1​−Qπ(st​,at​))n次增量 采样 Qπ(st​,at​)α(rt1​γQπ(st1​,at1​)−Qπ(st​,at​))​​​ 其中 r t 1 γ Q π ( s t 1 , a t 1 ) − Q π ( s t , a t ) r_{t1}\gamma Q^{\pi}\left( s_{t1},a_{t1} \right) -Q^{\pi}\left( s_t,a_t \right) rt1​γQπ(st1​,at1​)−Qπ(st​,at​)称为时序差分误差。当时序差分法只使用一步实际奖赏时称为 T D ( 0 ) TD(0) TD(0)算法扩展为 T D ( n ) TD(n) TD(n)算法当 n n n充分大时退化为蒙特卡洛强化学习 3 策略改进原理 类似地时序差分强化学习同样分为同轨策略和离轨策略前者的代表性算法是SARSA算法后者的代表性算法是Q-learning算法 3.1 SARSA算法 SARSA算法流程图如下所示 3.2 Q-Learning算法 Q-Learning算法流程图如下所示 更多精彩专栏 《ROS从入门到精通》《Pytorch深度学习实战》《机器学习强基计划》《运动规划实战精讲》… 源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系
http://www.pierceye.com/news/115794/

相关文章:

  • 建设电影推荐网站的项目背景网站开发的公司电话
  • 建设银行 福建分行招聘网站cctv5体育现场直播
  • 网站那个做的比较好的微信辅助网站制作
  • 网站设计大全推荐wordpress后台登录
  • 网站运营与数据分析网站开发学习什么
  • 上海网站备案在哪里查询网站建设哪家稳妥
  • 建设网站做什么赚钱网站制作.
  • 小企业公司网站怎么建做网站英文编辑有前途吗
  • 优化图片传网站wordpress背景图片
  • 网站服务器哪家好些外包做网站不付尾款
  • 建站系统wordpress下载哪个公司的微信商城系统
  • 网站建设app开发合同深圳企业网站制作设计方案
  • 免费网站整站模板下载寻找做网站
  • 做此广告的网站做家纺的网站
  • 湖南畅想网站建设个人网站建设基本定位
  • 建站公司外包钓鱼网站怎么做
  • 个人网站logo需要备案吗鑫灵锐做网站多少钱
  • .xyz做网站怎么样网站产品预算
  • 建网站先要申请网址吗做网站给文件不侵权
  • 一元夺宝网站建设Wordpress 普通图片裁剪
  • 网站推广都有哪些自己有网站怎么优化
  • 宠物交易网站模板更改wordpress后台登录地址
  • 有电脑网站怎样建手机正规网络游戏平台
  • 网站抓取QQ获取系统cms监控手机客户端
  • 郑州网站推广价格优礼品网站模板
  • 百度指数不高的网站怎么优化网站图片类型
  • 北京专业做网站怎么样app软件开发摄像头
  • 网站建设导向erp系统软件免费版
  • 手表网站网站开发毕业设计文献综述
  • 台州网站制作维护关于微网站策划ppt怎么做