七星彩网站建设,金山集团网站建设,微信小程序生成平台系统,网站建设用什么开源程序好1.空间注意力机制STN
参考链接#xff1a;STN(Spatial Transformer Networks) 参考链接#xff1a;通俗易懂的Spatial Transformer Networks(STN)
核心动机#xff1a; 在空间中捕获重要区域特征(如图像中的数字)#xff0c;将核心区域进行放大居中#xff0c;使得结果更…1.空间注意力机制STN
参考链接STN(Spatial Transformer Networks) 参考链接通俗易懂的Spatial Transformer Networks(STN)
核心动机 在空间中捕获重要区域特征(如图像中的数字)将核心区域进行放大居中使得结果更容易识别主体结构 局部网络、参数化网络采样网络生成器和差分图像采样
1.1 局部网络(Localisation net)
输入 UU可以是输入图片也可以是Feature Map 输出 θ \theta θ局部网络会将重要区域特征进行放大居中 θ \theta θ表示原图到变换后图像之间的变换和平移参数参考上图(b)列
1.2 网络生成器(Grid generator)
输入局部网络模块输出的变换关系 θ \theta θ 输出经过仿射变换后的特征图参考上图中©列
1.3 差分图像采样(Sample)
Sample 就是用来解决Grid generator模块变换出现小数位置的问题的当对小数进行仿射变换时由于取整操作会将变换前不同的位置映射到同一个坐标下。针对这种情况STN采用双线性插值(Bilinear Interpolation) 进行解决即根据(x,y)的像素值根据周围坐标的像素值来确定。计算公式如下
2.通道注意力之SENet 核心动机在通道中捕获重要区域特征通过学习的方式来自动获取到每个特征通道的重要程度然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征主体结构全局池化、权重预测、为每一个通道给不同的权重 参考链接【注意力机制】SENetSqueeze-and-Excitation Networks详解
2.1 全局池化(global average pooling)
Squeeze操作将一个channel上整个空间特征编码为一个全局特征采用global average pooling 来实现就是将每个通道上所有的特征相加最终由H*W*C变为1*1*C。
2.2 权重预测(Excitation)
Excitation主要是通过两个全连接神经网络FC将将每个通道信息转换为相应的权重网络结构如下
第一个FC层对C个通道特征进行降维目的是降低模型的复杂度以及泛化能力 第二个FC层再进行升维操作最终通过Sigmoid函数将每个通道归一化到[0-1]区间
2.3 为通道赋予权重(Scale)
Scale操作是将学习到的各个channel的激活值sigmoid激活值为0到1乘以U上的原始特征
3.混合注意力机制CBAM
核心思想同时经过了通道和空间两个注意力机制的处理自适应细化特征。
这两个模块可以以并行或顺序的方式放置。结果表明顺序排列的结果比并行排列的结果好。对于排列的顺序实验结果表明通道在前面略优于空间在前面
4.自注意力Self-Attention
参考链接自注意力Self-Attention机制原理说明 参考链接图解自注意力机制(Self-Attention) 参考链接Vision Transformer 超详细解读 (原理分析代码解读) (一)
核心思想计算给定的input sequence各个位置之间彼此的影响力大小
4.1 自注意力机制简介
对于网络输入的一组向量每个向量之间可能存在联系自注意力机制会结合其他向量对当前向量的影响可以帮助模型更好地理解序列中的上下文信息从而更准确地处理序列数据。比如某个单词Games在孤独的语境中可能会将其识别为游戏但是给定上下文信息the 2022 Beijing Winter GamesGames会被理解为奥运会。
和上述注意力机制一样自注意力机制也是为输入向量添加一个权重信息不过不是表征重要程度而是和输入其他向量之间的关系。
在对图像的处理过程中会将图像分割为一系列的像素块每个像素块会作为一个序列自注意力机制会寻找每个像素块之间的关系。
4.2 自注意力机制的实现过程
本节图像来自https://cloud.tencent.com/developer/article/2407538
4.2.1 单个输出 对于每一个输入向量a经过蓝色部分self-attention之后都输出一个向量b这个向量b是考虑了所有的输入向量对a1产生的影响才得到的这里有四个词向量a对应就会输出四个向量b。
以输入a1为例介绍其他输入向量与a1之间的联系
基于Dot-product计算sequence中各向量与a1的关联程度
绿色的部分就是输入向量a1和a2灰色的Wq和Wk为权重矩阵需要学习来更新用a1去和Wq相乘得到一个向量q然后使用a2和Wk相乘得到一个数值k。最后使用q和k做点积得到α。α也就是表示两个向量之间的相关联程度。
可以计算每一个α(又称为attention scoreq称为queryk称为key
另外也可以计算a1和自己的关联性再得到各向量与a1的相关程度之后用softmax计算出一个attention distribution这样就把相关程度归一化(即图中公式)通过数值就可以看出哪些向量是和a1最有关系。 假设[a1, a2, a3, a4][2, 3, 4, 5]计算相关性后[a11, a12, a13, a14][0, 2, 8, 10]归一化后就变为[0 0.1, 0.4, 0.5]
根据 α′ 抽取sequence里重要的信息
先求vv就是键值valuev和q、k计算方式相同也是用输入a乘以权重矩阵W得到v后与对应的α′ 相乘每一个v乘与α’后求和得到输出b1。 如果 a1 和 a2 关联性比较高 α1,2′ 就比较大那么得到的输出 b1 就可能比较接近 v2 即attention score决定了该vector在结果中占的分量
4.2.2 矩阵形式
q、k、v的矩阵形式生成
把4个输入a拼成一个矩阵乘上相应的权重矩阵W得到相应的矩阵Q、K、V分别表示query,key和value 三个W是我们需要学习的参数
利用得到的Q和K计算每两个输入向量之间的相关性 也就是计算attention的值α α的计算方法有多种通常采用点乘的方式。 先针对q1通过与k1到k4拼接成的矩阵K相乘得到 α 1 , n \alpha_{1,n} α1,n
同样q1到q4也可以拼接成矩阵Q直接与矩阵K相乘
写为矩阵形式
矩阵A中的每一个值记录了对应的两个输入向量的Attention的大小αA’是经过softmax归一化后的矩阵。
利用得到的A’和V计算每个输入向量a对应的self-attention层的输出向量b 写成矩阵形式
4.2.3 总结
对self-attention操作过程做个总结输入是I输出是O矩阵Wq、 Wk 、Wv是需要学习的参数。
4.3 多头自注意力机制(Multi-head Self-attention)
因为相关性有很多种不同的形式有很多种不同的定义所以有时不能只有一个q要有多个q不同的q负责不同种类的相关性。
4.3.1 计算单个输入a: 首先和上面一样用a乘权重矩阵W得到qkv然后q再乘两个不同的W得到两个不同的 q i , j q^{i,j} qi,ji代表的是位置1和2代表的是这个位置的第几个q。
4.3.2 计算多个head
这上面这个图中有两个head代表这个问题有两种不同的相关性。 同样k和v也需要有多个两个k、v的计算方式和q相同都是先算出来ki和vi然后再乘两个不同的权重矩阵。
对于多个输入向量也一样每个向量都有多个head
4.3.3 计算self-attention
和上面讲的过程一样只不过是1那类的一起做2那类的一起做两个独立的过程算出来两个b。 对于1
对于2 4.4 Positional Encoding
在训练self attention的时候实际上对于位置的信息是缺失的没有前后的区别上面讲的a1,a2,a3不代表输入的顺序只是指输入的向量数量不像rnn对于输入有明显的前后顺序比如在翻译任务里面对于机器学习机器学习依次输入。而self-attention的输入是同时输入输出也是同时产生然后输出的。
如何在Self-Attention里面体现位置信息呢就是使用Positional Encoding
如果ai加上了ei就会体现出位置的信息i是多少位置就是多少。vector长度是人为设定的也可以从数据中训练出来