当前位置: 首页 > news >正文

建站公司兴田德润简介三亚最新政策

建站公司兴田德润简介,三亚最新政策,奥特蛋的做网站,图文制作app文章目录 什么是强化学习强化学习的两个基本特征强化学习的其它特征强化学习不同于有监督学习强化学习不同于无监督学习强化学习不同于进化方法强化学习的独特挑战强化学习典例 强化学习的要素强化学习的适用范围强化学习学术主线解决强化学习问题的一般框架赌博机两个影响因素… 文章目录 什么是强化学习强化学习的两个基本特征强化学习的其它特征强化学习不同于有监督学习强化学习不同于无监督学习强化学习不同于进化方法强化学习的独特挑战强化学习典例 强化学习的要素强化学习的适用范围强化学习学术主线解决强化学习问题的一般框架赌博机两个影响因素平稳赌博机和非平稳赌博机乐观初始值的理解赌博机问题的求解方法全能全知Omniscient随机算法Random贪心算法Greedyucb梯度赌博机算法汤普森采样 赌博机问题与真正强化学习之间的距离 什么是强化学习 “强化学习”这个词指一类问题也指解决这类问题的方法。 强化学习的两个基本特征 试错。学习者不会被告知应该采取什么动作而是自己通过尝试去发现哪些动作收益最大。延迟收益。动作既有即时收益也有长期收益。 强化学习的其它特征 仿生。实际上“强化”最早源于巴甫洛夫。 强化学习不同于有监督学习 后者学习的是标注。 前者从智能体自身的经验中学习。 强化学习不同于无监督学习 后者的目的是寻找数据中的隐含结构。 前者的目的是最大化收益信号。 强化学习不同于进化方法 后者只看结果不问过程。经典实例就是门齿楞这个突变毫无作用但因为搭上了有用突变的顺风车而在进化中得以保留。获取结果后认为过程中所有的动作都有功劳。 前者则充分利用过程评估每一个动作的价值。 进化方法是对整个策略的评估强化学习则是对每个动作的评估。 强化学习的独特挑战 explore和exploit的权衡。 但本书并不特别关心平衡两者的具体方法而是关心要不要去平衡它们。 强化学习典例 对弈。 羚羊幼崽30分钟学会站立和奔跑。 做早餐。 机器人决定工作还是充电。 总结与不确定的环境进行交互有目标需要远见和规划。 强化学习的要素 策略即时收益长期价值环境模型 确定价值比确定收益难得多是强化学习算法中最重要的部分。 目标就是最大化长期总收益也就是价值。 如果没有环境模型就只是单纯的试错。有环境模型时可以对环境做出预测从而有所规划。 策略是状态到每个动作选择概率的映射。 强化学习的适用范围 可以没有对手与环境博弈。 可以在时间上连续对弈是离散的。 可以用于无穷大的状态集。 可以利用游戏规则以外的先验信息。 强化学习学术主线 最优控制试错学习时序差分 解决强化学习问题的一般框架 有限马尔可夫决策过程是解决强化学习问题的一般框架。 赌博机 两个影响因素 赌博机是否平稳即每个臂的分布是否会变每个臂的分布的方差大小如果大则需要更多explore 平稳赌博机和非平稳赌博机 前者的朴素实现 思想就是利用已知的信息求出一个臂收益的平均值作为其未来的收入预期。 上面的例子是最容易理解的。实际上可以借助上一次的结果较快算出新的平均值。因为 新平均值 x n 旧平均值 x (n-1) 最新收益 2.3式的理解随着n的增大单次收益对整体平均值的影响越来越小。 对于不平稳的赌博机我们更关心较新的值。把2.3中的步长n换成常数即可让较新的值对结果产生较大影响。权重是一个等比数列权重和为1。这个方法称为指数近因加权平均。 这里需要温习一下无穷级数的收敛性判断。可以用积分判别法。lnx1不收敛1/x1则收敛。所以采样平均能在采样次数足够多的前提下收敛到真值。至于常数步长由于不是递减显然是发散的。 乐观初始值的理解 试想如果每个臂的估计初始值为5超过所有臂的最高收益那系统就总会认为没选过的臂是更好的。任何实际选择都会带来失望永远对没选过的抱有幻想。 一开始我以为原始贪心算法一遇到正的就会固定看了知乎专栏发现其实原始贪心算法也会做一轮探索。所以初始值为0和为5的区别在哪里 第一轮每个臂的收益都下降了但下降程度不同。赌徒随后开始大规模操作第一轮的最优跟原始贪心算法一样但随后他发现这个不再是最优了因为对于每条臂都是越摇越差。因此乐观初始值比较大的时候每个臂都会被选择多次而不是一次。这样可以缓解原始贪心中的第一轮的误导。 对于非平稳问题初始值的作用就不大了。 赌博机问题的求解方法 全能全知Omniscient 即已经知道回报概率那最直接的策略就是一直玩这一台。后面的每个策略的探索表现都会和上帝的答案来比较。 随机算法Random 每一轮随机地去拉一个摇臂。 贪心算法Greedy 先把所有的摇臂都拉一次然后选择回报最好的老虎机一直玩下去。这种策略很明显不鼓励进行探索而且很容易被每个摇臂第一遍的回报结果误导。 ucb upper confidence bound epsilon-greedy实际上是一种盲目的选择因为它不太会选择接近贪心或者不确定性特别大的动作。在命中epsilon时在包括贪心动作在内的所有动作中等概率选择epsilon/n。 而ucb体现的是不确定性优先选择较少的臂的修正项会比较大。 ln t随着轮数的增加而增大Nt(a)则是截至第t轮选择a的次数。 梯度赌博机算法 在dl有一句话“二分类单输出用sigmoid多分类或多输出用softmax。” 我并不熟悉dl和分类问题。我的理解是这样的 一个物体属于a类、b类、c类的可能性如果用整数表示为235 那么hardmax的结果是5认为这个物体属于c类。 而softmax则不同softmax的结果是0.04201007 0.11419519 0.8437947公式见下图。三个值分别表示这个物体属于a、b、c类的概率。 经过使用指数形式的Softmax函数能够将差距大的数值距离拉的更大。 至于为什么要用sigmoid和softmax我想是为了在不改变性质的前提下用可导函数代替不可导函数方便数学计算。而且相比hardmaxsoftmax保留了更多信息肯定更加精确周到。 梯度赌博机算法引入了偏好函数所有臂的偏好函数初始时是一样的如0。 偏好函数的更新 肤浅的解释是如果t时刻选一个臂表现比t时刻的均值要好那就提高偏好反之降低。 每次对臂的选择取决于下式 肤浅的解释是臂的偏好函数越大选择这个臂的可能性就越大。 从2.12式可以看出基准项Rt拔的引入可以减小减小更新项的方差相比无基准项时收敛更快。 从结果来看α大的时候收敛更快。 2.12式是怎么来的以及为什么叫梯度赌博机算法由2.13推导可以得到2.12。 将每一时刻所有选择的期望看作此时刻所有偏好函数的因变量。 这也是比较自然的因为偏好影响选择选择影响性能。 2.13中q*(x)我们无法获得但可以用期望来代替。实际可用的就是2.12。 汤普森采样 https://www.cnblogs.com/gczr/p/11220187.html 棒球运动员的例子很生动。 我们一开始有一些先验知识大概了解棒球运动员的击球率区间 然后根据本赛季棒球运动员的实际表现来调整击球率的概率分布。 相比朴素除法我们最后获得的不是一个概率而是概率的概率分布即本赛季的击球率的概率分布。 其优势在于不太受数据量的影响不管是赛季刚开始或是上场比较少都能不丢失信息地刻画出击球率如果上场比较少那么击球率的分布就会比较分散。因为数据少所以不确定性大从图上是能看出来的而不是一个扁平的值。 赌博机问题与真正强化学习之间的距离 赌博机问题是上下文无关的是非关联的即动作不会影响情境。动作只影响当次收益。 真正的强化学习中动作不只影响当次收益还会影响情境。往往有多种情境。 我的理解是你对赌博机的操作会影响你玩的下一台赌博机的编号。这就是动作影响情境不止一种情境。 按我理解这是一种比较极端的非平稳过程臂的收益分布不是渐变的而是跳变的因为根本就不是同一台赌博机了所以上文的非平稳方法很大可能没效果。 强化学习要做的就是利用赌博机的编号信息形成与任务相关的策略。
http://www.pierceye.com/news/538756/

相关文章:

  • 成都网站建设 雷阿里云服务器 个人网站
  • 云南网站设计公司网站死链接检查
  • 彭阳县城乡与住房建设局网站建设网站论坛都需要哪些工具
  • html5制作网站寻花问柳一家专门做男人的网站
  • 广东省网站集约化建设方案网络营销热门岗位
  • 专门做食品的网站电商网站建设系统
  • 网站改版什么意思汕头网站推广哪家好
  • 东营wordpress网站建设网站底部放什么
  • 网站备案应该怎么做90自己做网站
  • wordpress网站基础知识天津泰达建设集团网站
  • 加强红色网站建设网页设计图片显示不出来
  • 玉林网站建设徐州铜山区
  • 福建网站建建设方案单一产品销售网站建设模板
  • 免费开源门户网站系统网站seo优化如何做
  • html网站分页怎么做wordpress cms plugin
  • 一个网站如何做seo优化卖书网站开发的背景
  • jsp网站开发源码实例广州网站优化排名推广
  • 网站建设中网站需求分析报告百度网盘电脑版下载
  • 爱做网站网址工商网站注册公司
  • 住房和城乡建设部网站下载魔改wordpress主题
  • dremrever怎么做网站阿里云php网站建设教程
  • 网站建设课程旅行社手机网站建设方案
  • 书店网站建设策划书总结关于外贸公司的网站模板
  • 张家港市规划建设网站房地产估价师
  • 创建网站有什么用南京做网站优化的企业
  • 网站seo设置是什么怎么知道网站被百度k了
  • 个人网站开发的意义自己建设网站需要什么手续
  • 网站的建设流程怎样使用仿站小工具做网站
  • 佛山企业模板建站企业微信管理系统
  • 百度推广登录网站网站开发需要什么技术人员