当前位置: 首页 > news >正文

如何让新网站自适应网站的代表

如何让新网站,自适应网站的代表,惠州seo推广公司,时代设计网 新网站Deep Attention Recurrent Q-Network 5vision groups 摘要#xff1a;本文将 DQN 引入了 Attention 机制#xff0c;使得学习更具有方向性和指导性。#xff08;前段时间做一个工作打算就这么干#xff0c;谁想到#xff0c;这么快就被这几个孩子给实现了#xff0c;自愧…   Deep Attention Recurrent Q-Network 5vision groups       摘要本文将 DQN 引入了 Attention 机制使得学习更具有方向性和指导性。前段时间做一个工作打算就这么干谁想到这么快就被这几个孩子给实现了自愧不如啊( ⊙ o ⊙ )     引言我们知道 DQN 是将连续 4帧的视频信息输入到 CNN 当中那么这么做虽然取得了不错的效果但是仍然只是能记住这 4 帧的信息之前的就会遗忘。所以就有研究者提出了 Deep Recurrent Q-Network (DRQN)一个结合 LSTM 和 DQN 的工作   1. the fully connected layer in the latter is replaced for a LSTM one ,    2. only the last visual frame at each time step is used as DQNs input.    作者指出虽然只是使用了一帧的信息但是 DRQN 仍然抓住了帧间的相关信息。尽管如此仍然没有看到在 Atari game上有系统的提升。      另一个缺点是长时间的训练时间。据说在单个 GPU 上训练时间达到 12-14天。于是有人就提出了并行版本的算法来提升训练速度。作者认为并行计算并不是唯一的最有效的方法来解决这个问题。        最近 visual attention models 在各个任务上都取得了惊人的效果。利用这个机制的优势在于仅仅需要选择然后注意一个较小的图像区域可以帮助降低参数的个数从而帮助加速训练和测试。对比 DRQN本文的 LSTM 机制存储的数据不仅用于下一个 actions 的选择也用于 选择下一个 Attention 区域。此外除了计算速度上的改进之外Attention-based models 也可以增加 Deep Q-Learning 的可读性提供给研究者一个机会去观察 agent 的集中区域在哪里以及是什么where and what。          Deep Attention Recurrent Q-Network         如上图所示DARQN 结构主要由 三种类型的网络构成convolutional (CNN), attention, and recurrent . 在每一个时间步骤 tCNN 收到当前游戏状态 $s_t$ 的一个表示根据这个状态产生一组 D feature maps每一个的维度是 m * m。Attention network 将这些 maps 转换成一组向量 $v_t \{ v_t^1, ... , v_t^L \}$L m*m然后输出其线性组合 $z_t$称为 a context vector. 这个 recurrent network在我们这里是 LSTM将 context vector 作为输入以及 之前的 hidden state $h_{t-1}$memory state $c_{t-1}$产生 hidden state $h_t$ 用于   1. a linear layer for evaluating Q-value of each action $a_t$ that the agent can take being in state $s_t$ ;    2. the attention network for generating a context vector at the next time step t1.        Soft attention :    这一小节提到的 soft Attention mechanism 假设 the context vector $z_t$ 可以表示为 所有向量 $v_t^i$ 的加权和每一个对应了从图像不同区域提取出来的 CNN 特征。权重 和 这个 vector 的重要程度成正比例并且是通过 Attention network g 衡量的。g network 包含两个 fc layer 后面是一个 softmax layer。其输出可以表示为   其中Z是一个normalizing constant。W 是权重矩阵Linear(x) Ax b 是一个放射变换权重矩阵是A偏差是 b。我们一旦定义出了每一个位置向量的重要性我们可以计算出 context vector 为   另一个网络在第三小节进行详细的介绍。整个 DARQN model 是通过最小化序列损失函数完成训练   其中$Y_t$ 是一个近似的 target value为了优化这个损失函数我们利用标准的 Q-learning 更新规则   DARQN 中的 functions 都是可微分的所以每一个参数都有梯度整个模型可以 end-to-end 的进行训练。本文的算法也借鉴了 target network 和 experience replay 的技术。       Hard Attention   此处的 hard attention mechanism 采样的时候要求仅仅从图像中采样一个图像 patch。   假设 $s_t$ 从环境中采样的时候受到了 attention policy 的影响attention network g 的softmax layer 给出了带参数的类别分布categorical distribution。然后在策略梯度方法策略参数的更新可以表示为   其中 $R_t$ 是将来的折扣的损失。为了估计这个值另一个网络 $G_t Linear(h_t)$ 才引入进来。这个网络通过朝向 期望值 $Y_t$ 进行网络训练。Attention network 参数最终的更新采用如下的方式进行     其中 $G_t - Y_t$ 是advantage function estimation。      作者提供了源代码https://github.com/5vision/DARQN        实验部分                总结
http://www.pierceye.com/news/311080/

相关文章:

  • 泸州住房和城乡建设厅网站怎么自己做微网站吗
  • 做网站上传图片自己怎么建设网站首页
  • 西安空调销售网站建设wordpress 谷歌地图
  • 网站建设投标书范本wordpress防广告屏蔽
  • 设计个人网站的步骤建设工程合同无效的情形有哪些
  • 网站竞争对手的选定一般参考什么标准的建设网站长沙
  • 通州个人做网站营销型网站建设开发
  • 乌海市网站建设基于asp的网络课程网站开发
  • 关掉自己做的网站网页设计与制作服务公司
  • 视频相亲网站开发成本分类信息网站推广的意义
  • 域名和网站网站开发项目视频
  • 色流网站怎么做东营建筑信息网
  • 做能支付的网站贵吗网络安全工程师考证
  • 下载类网站开发条件环球资源网成立时间
  • 客户如何找到做网站宣传的律师免费虚拟主机空间
  • 点击网站出现微信二维码的链接怎么做网架制造厂
  • 服装网站建设环境分析一家专门做房产特卖的网站
  • 网站推广方式方法品牌建设的阶段和步骤是什么
  • 游戏开发平台seo的定义
  • 北京住房和城乡建设部网站官网可信赖的购物网站建设
  • 网站百度一直没有收录热狗网站关键词优化
  • 视频网站开发价格本地app开发公司电话
  • 网站设计风格介绍北京市建设工程信息网如何登录
  • 怎么创建一个属于自己的网站怎么制作做网站
  • 大学加强网站建设与管理的通知莱芜金点子租房信息港
  • 网站的营销与推广杭州五旋科技网站建设怎么样
  • 莱芜四中网站如何优化网站目录结构
  • 深圳公司网站设计哪家好北京装修公司十大排名
  • 如何制作一个好网站做国际网站找阿里
  • 南京制作网站wordpress网站源码上传