当前位置: 首页 > news >正文

郑州网站优化托管企业品牌战略

郑州网站优化托管,企业品牌战略,南宁网站优化排名推广,汾湖做网站线性注意力将Softmax解耦为两个独立的函数#xff0c;从而能够将注意力的计算顺序从(querykey)value调整为query(keyvalue)#xff0c;使得总体的计算复杂度降低为线性。然而#xff0c;目前的线性注意力方法要么性能明显不如Softmax注意力#xff0c;并且可能涉及映射函数…线性注意力将Softmax解耦为两个独立的函数从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)使得总体的计算复杂度降低为线性。然而目前的线性注意力方法要么性能明显不如Softmax注意力并且可能涉及映射函数的额外计算开销 首先以往线性注意力模块的注意力权重分布相对平滑缺乏集中能力来处理最具信息量的特征。作为补救措施我们提出了一个简单的映射函数来调整查询和关键字的特征方向使注意权值更容易区分。其次我们注意到注意力矩阵的降低秩限制了线性注意力特征的多样性。提出了一个秩恢复模块通过对原始注意矩阵进行额外的深度卷积(DWC)有助于恢复矩阵秩并保持不同位置的输出特征多样化。 聚焦能力 先前的一些工作中指出在自注意力计算中Softmax提供了一种非线性的权重生成机制使得模型能够更好地聚焦于一些重要的特征。如下图所示本文基于DeiT-tiny模型给出了注意力权重分布的可视化结果。可以看到Softmax注意力能够产生较为集中、尖锐的注意力权重分布能够更好地聚焦于前景物体而线性注意力的分布则十分平均这使得输出的特征接近所有特征的平均值无法聚焦于更有信息量的特征。 Softmax Attention Linear Attention 线性注意力被认为是一种有效的替代方法它将计算复杂度从O(N2)限制到O(N)。具体来说引入精心设计的核函数作为原始相似函数的近似即 Focused Linear Attention 1、聚焦 2 、DWC 特征多样性 除聚焦能力外特征多样性也是限制线性注意力性能的一个因素。本文基于DeiT-tiny可视化了完整的注意力矩阵并计算了矩阵的秩将Softmax注意力与线性注意力进行对比。从图中可以看到Softmax注意力可以产生满秩的注意力矩阵这反映出模型提取到的特征具有多样性。然而线性注意力无法得到满秩的注意力矩阵这意味着不同行的权重之间存在冗余性。。 线性注意力矩阵的秩会被每个head的维度d和特征数量N中的较小者所限制 由于自注意力的输出是这些权重对同一组value加权组合得到的权重的同质化就必然会导致模型输出的多样性下降进而影响模型性能。
http://www.pierceye.com/news/305667/

相关文章:

  • 小贷做网站深圳手机app软件开发
  • 上海平台网站建设费用页面模板不存在怎么办
  • 西安网站排名公司上海工商网查询官网
  • 网站建设协调机制建网站 可以看到访客吗
  • 学生做网站的工作室南和住房和城乡建设局网站
  • 潍坊网站制作案例广东十大网站建设排名
  • 网站建设市场调研框架网站建设流程步骤怎么样
  • 喜茶品牌策划全案案例seo技术
  • 简速做网站中国企业网站建设案例
  • 做网站不给源码莱州网站建设包年多少钱
  • 好玩有趣的网站贵州省城乡建设厅网站材料价
  • 投资公司网站设计上海自动seo
  • 网络营销导向网站建设的基础是什么创新驱动发展战略的内容
  • 银狐鑫诺科技 网站建设深圳画册设计价格
  • 邵阳网站建设推广优化游戏性能的软件
  • wp做网站难吗销售产品单页面网站模板
  • 网站子域名 更换网站开发什么方式
  • 学做面食最好的网站设计公司logo大全
  • wordpress建站入门手机网站跳转怎么办
  • 好网站开发培训wordpress是否免费
  • 建设国际互联网网站网站建设制作流程
  • 开发一个网站做爬虫手机网站建设视频
  • 网站搜索功能模块公众号开发菜单
  • 公司想做个自己的网站怎么做网络营销与管理专业
  • 网站设计中国内优秀企业网站欣赏深圳商城网站设计公司
  • 泌阳县住房和城乡建设局网站wordpress注册去掉电子邮件
  • 电商网站设计目的活动策划怎么写
  • 做网站有限公司智慧团建官方网站
  • 南京建设网站公司哪家好科技创新论文800字
  • 网站app的区别是什么深圳沙井做网站公司