当前位置: 首页 > news >正文

烟台网站设计单位平面设计网上接单

烟台网站设计单位,平面设计网上接单,共同建设网站协议,网络营销与直播电商google football 实验记录 1. gru模型和dense模型对比实验 实验场景#xff1a;5v5(控制蓝方一名激活球员)#xff0c;跳4帧#xff0c;即每个动作执行4次 实验点#xff1a; 修复dense奖励后智能体训练效果能否符合预期 实验目的#xff1a; 对比gru 长度为16 和 dens… google football 实验记录 1. gru模型和dense模型对比实验 实验场景5v5(控制蓝方一名激活球员)跳4帧即每个动作执行4次 实验点 修复dense奖励后智能体训练效果能否符合预期 实验目的 对比gru 长度为16 和 dense net作为aggrator的区别 实验效果 reward 敌方得分 我方得分 熵 实验结论 相较于长度16的grudense net 作 聚合器有益于快速收敛。 gru聚合器学到了持球奖励所以在双方奖励初步收敛后gru能凭借持球奖励再一步将总奖励提到0以上另一方面说明持球奖励设置太大了 两种方法都很难学会进球进球的次数太少。 2 课程学习 2.1 禁区内 实验场景5v5(控制蓝方四名非守门员成员)跳4帧在简单课程禁区射门开始 实验目的 测试简单课程能否教会智能体智能体在禁区中射门 实验效果 奖励 我方得分 敌方得分 熵 实验结论 课程学习中将我方球员和足球放置于禁区内有助于智能体学会在禁区内射门动作 只进行这一种课程学习无法教会智能体从后场带球突破前场然后射门的策略所以进球数始终无限接近于一禁区内射门而无法超过一 2.2前场禁区外-对战简单规则 实验场景5v5(控制蓝方四名非守门员成员)跳4帧在进阶课程我方全部球员处于敌方禁区外的前场敌方所有球员处于我方的后场足球位于我方球员附近。敌方体力0.05我方体力1.00 实验配置加载经过简单禁区内射门课程学习智能体的模型 实验目的试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略 实验效果 奖励 得分 胜率 熵 实验结论 进阶课程学习中将我方球员和足球放置于前场有助于智能体学会突破防守进入禁区然后射门在敌方体力0.05我方体力1.00的设置下每场净进球最高为8胜率接近1 进阶课程中由于我方全部处于越位位置传球会导致越位使得训练后智能体在突破过程中倾向于单刀直入很少有传球动作。并且进攻路线比较单一总是从中路的一条直线突破。在敌方持球阶段防御能力很弱。 2.3前场禁区外-对战困难规则 实验场景5v5(控制蓝方四名非守门员成员)跳4帧在进阶课程3.7中敌我双方球员均处于各自半场我方球员更接近球场中心足球位于球场中心。敌方体力1.00我方体力1.00在进阶课程4.8中敌我双方球员均处于对称位置足球位于球场中心。敌方体力1.00我方体力0.11 实验配置加载经过简单禁区内射门课程学习智能体的模型 实验目的试验进阶课程能否教会智能体从后场带球突破至前场禁区然后射门的策略 实验效果 奖励 得分 熵 胜率 实验结论 通过进阶课程37-48可以使智能体在较公平和较劣势情况下学习到战胜规则智能体的策略。 由于课程的设置智能体很少有传球动作。并且进攻路线比较单一总是从中路的一条直线突破。在敌方持球阶段防御能力很弱。 Naive Selfplay 单一模型纯selfplay 实验场景5v5(控制蓝方四名非守门员成员)跳4帧左右双方均为强化学习智能体采用同一模型、右边队伍以0.01的概率为 规则智能体 实验配置加载经过进阶课程学习36智能体的模型 实验目的测试selfplay训练方法对模型攻防性能的影响 实验效果 奖励 得分 熵 胜率 实验结论 根据对战视频selfplay可以增加智能体进攻策略的多样性智能体不会拘泥一种策略而是从多个方向向禁区突破并且具有较低水平的防守能力偶尔会截断传球成功铲球等 selfplay 后的智能体对战规则的胜率降低不能像在课程学习中那样降低规则的进球数说明其对自身模型产生较大的过拟合参考文献 Bansal, Trapit et al. “Emergent Complexity via Multi-Agent Competition.” ArXiv abs/1710.03748 (2017): n. pag. 中也有指出naive selfplay的这种过拟合现象文章通过抽取不同时期的model缓解这种现象。 单一模型selfplay和规则混合训练 实验场景5v5(控制蓝方四名非守门员成员)跳4帧左右双方均为强化学习智能体采用同一模型、右边队伍分别以0.5、 0.75 的概率为 规则智能体 实验配置加载经过进阶课程学习36智能体的模型 实验目的测试selfplay和规则混合训练方法对模型攻防性能的影响观察不同占比的规则对手对智能体训练会产生什么影响 实验结果 奖励 得分 胜率 熵 value loss policy loss 实验结论 面对混合对手智能体策略迅速保守化具体表现为自己得分下降同时让对手的得分下降视频中效果为将球运到自己半场后不再进攻这一现象不会因为规则占比的多少而出现明显不同。考虑造成这种现象的原因可能有以下两种1. 由于规则和selfplay的策略差别较大造成智能体进攻策略时价值函数和策略函数更新过程中的方差大因而偏向保守策略。 2. 单模型的selfplay模型更新有问题一些右队的数据应该被抛弃的数据、影响了模型更新 最终效果图左队为强化学习智能体
http://www.pierceye.com/news/1825/

相关文章:

  • 网站编辑的工作职能有哪些成华区网站建设公司
  • 理财网站模版搜索自媒体平台
  • 网站建设关键字自己做网站服务器的备案方法
  • 网站进度条代码wordpress留言标签
  • 可以做免费推广的网站有经验的邵阳网站建设
  • 沈阳新民网站建设深圳网站建设公司报价
  • 郑州网站建设网络推广企业网站优化分为两个方向
  • 枣阳网站定制甘肃建筑人才网
  • 微网站的建设模板有哪些内容国内做优秀的农业信息网站
  • 做暧暖爱视频每一刻网站wordpress添加下载地址
  • 推广型网站建设模板外贸行业网站推广
  • 专业网站搭建定做iis 无法访问此网站
  • 不同域名指向同一网站做金融网站违法吗
  • 公司网站建设苏州劳伦国外产品推广平台
  • 公司做外贸的网站动画制作专业就业前景
  • 淘宝客做二级域名网站可以做网页的软件
  • 外贸网站怎么做重庆服装网站建设费用
  • 网约车平台app网站建设汕头网站建设系统
  • 建设微信营销网站建立网站有哪些步骤
  • 浙江网站开发工程师万柳网站建设
  • 网站极速备案公司公司手机网站制作
  • 网站手机优化显示景点网站建设
  • 怎样用自己电脑做网站广电基础设施建设官方网站
  • 黑龙江建设兵团知青网站廊坊做网站多少钱
  • 网站建设收费标准报价环境设计专业介绍
  • 贸易公司网站源码深圳前50强网站建设公司
  • 制作装饰公司网站企业网站都没的百度快照咋办
  • 自己建设的网站怎么赚钱泉州百度竞价推广
  • 通辽做网站有没有免费咨询协议
  • 光谷做网站推广价格wordpress安装好后怎么使用