当前位置: 首页 > news >正文

太原做微网站的公司平江外贸推广软件

太原做微网站的公司,平江外贸推广软件,定州市住房和建设局网站,什么网站做美食最好最专业收集有标签数据比较困难的时候同时也不知道什么答案是比较好的时候可以考虑使用强化学习通过互动#xff0c;机器可以自己知道什么结果是好的#xff0c;什么结果是坏的 Outline 什么是RL Action就是一个functionEnvironment就是告诉这个Action是好的还是坏的 例子 Space i… 收集有标签数据比较困难的时候同时也不知道什么答案是比较好的时候可以考虑使用强化学习通过互动机器可以自己知道什么结果是好的什么结果是坏的 Outline 什么是RL Action就是一个functionEnvironment就是告诉这个Action是好的还是坏的 例子 Space invader 只能左移动右移动开火任务就是杀死外星人奖励就是分数终止杀死所有的外星人或者自己被外星人杀死 找到一个function使得得分总和最大 例子Play Go 下围棋的score只有在游戏结束的时候才有分数1 -1 0中间时刻是没有得分的 RL和ML关系 Step1 未知数的Function 在RL中未知数的Function就是Action输入是网络观察到的输出是每个动作的反馈分数就是激励基于分数去有概率的随机性采取对应的行动增加多样性 Step2定义Loss 把所有的reward进行累加作为最终分数Loss就是要最大虾该总和分数 Step3优化器 给定的随机行为有随机的反应如何找到一组参数去使得分数越大越好类比于GAN但是Reward和env不能当作是network是一个黑盒子 Policy Gradient 如何控制你的action 希望采用的模型可以类比一个分类器希望不采用什么动作的模型可以使用上面取反 使得e1越小越好使得e2越大越好 收集一些训练数据 但不一定是只有两种情况不是二分类问题可以采用不同的数字表示不同程度的期待 定义A 版本1 随机的Action得到结果然后进行评价正负 该版本不是一个好的版本短视近利的Action没有长远规划每个动作都影响后续的动作奖励延迟需要牺牲短期利益获得长远利益 版本2 把每个动作之后的分数都加起来作为该动作的分数 版本3 相邻的动作影响更大一点越远的距离的动作影响越小 版本4 需要对分数进行标准化减掉一个baseline b使得分数有正有负 Policy Gradient 收集资料是在epoch循环中 每次Update之后需要重新收集资料RL训练非常耗时 同一种行为对于不同的s是好坏是不一样的是一个连续的。 off-policy可以不用在更新前收集资料了只需要收集一次 增加随机性尝试不同的action PPO
http://www.pierceye.com/news/534006/

相关文章:

  • 重庆网站空间黄骅港一期码头潮汐表
  • 推广网站如何做做酒店网站所用到的算法
  • 最好的网站建设组织wordpress 删除google
  • 生物科技 网站模板下载在线室内设计
  • 网站兼容性问题线上设计师接单
  • 外包网站平台可以做电算化的网站
  • 教育网站设计案例学校网站设计
  • 网站建设入门教程pdf网络推广和seo
  • 闲鱼钓鱼网站怎么做百度网页版主页
  • 一次备案多个网站alexa排名查询
  • 郑州做招商的网站网站建设的流程推广方案
  • wordpress手机网站插件海口seo关键词优化
  • wordpress随机文章佛山网站优化美姿姿seo
  • 做酒类网站中铁三局最新消息
  • 网站建设教程给赚湖南岚鸿官 网英语培训学校网站建设多少钱
  • 电子商务网站的建设步骤有注册咨询公司经营范围
  • 手机端网站做app开发wordpress建站论坛
  • 四合一做网站微信公众平台怎么做微网站
  • 法治与安全做讲座网站系统工具
  • wap网站怎么做白石洲网站建设
  • 网站备案 关闭网站广州安全教育平台登录入囗
  • 做常州美食网站首页的背景图招聘网站建设费用多少
  • 制作网站需要wordpress网站的建设步骤包括什么
  • 有什么网站可以做微信支付宝支付宝闽侯县建设局网站
  • html5网站图标qq刷赞网站如何做分站
  • 免费asp网站源码下载网页视频怎么下载到本地视频手机
  • 深圳网站定制开发安徽建设人才网官网
  • 斐讯k3做网站工商注册名称核准查询
  • 兼职网站编辑深圳网站做的好的公司哪家好
  • 网站响应速度优化wordpress外贸主题购买