当前位置：首页 > news >正文

网站地址解析弓长岭网站建设

news 2025/11/12 22:28:31

网站地址解析,弓长岭网站建设,电子商务网站建设实训报告,学做宝宝衣服网站好注意力机制为什么需要注意力机制Seq2Seq问题Transfomer Attention注意力机制分类软硬注意力注意力域为什么需要注意力机制这个可以从NLP的Seq2Seq问题来慢慢理解。 Seq2Seq问题 Seq2Seq#xff08;Sequence to Sequence#xff09;#xff1a;早期很多模型中#xff… 注意力机制为什么需要注意力机制Seq2Seq问题Transfomer Attention注意力机制分类软硬注意力注意力域为什么需要注意力机制这个可以从NLP的Seq2Seq问题来慢慢理解。 Seq2Seq问题 Seq2SeqSequence to Sequence早期很多模型中样本特征维度通常都是一致的。但是在机器翻译中输入和输出的长度都是不固定的例如输入英文“school”会输出中文“学校”输入一个单词却输出两个汉字。如何解决这种输入输出特征维度可变的情况并可以把一个序列直接转换到另一个序列这就是Seq2Seq要解决的问题。经典的Seq2Seq模型使用的是两个循环神经网络Recurrent Neural NetworkRNN下面是其的Encoder-Decoder结构图。编码器将输入序列转换为一个固定长度的向量表示解码器将该向量转换为长度不固定的输出序列。 Encoder部分是一个多输入单输出的RNN结构把词向量x依次输入到Encoder隐藏神经元A输入是由当前输入x和上一个隐藏神经元的输出组成最后输出最后一个隐藏神经元的输出作为Decoder的输入。这样的Encoder结构可以模拟人类的阅读顺序去读取序列化数据只保留最后一个隐藏状态相当于将把整个序列浓缩在了一起。 Decoder结构和Encoder结构几乎是一样的不同的地方在于输入的x是前面的结果。如果是训练阶段那么输入的x就是前面输出的label标准答案如果是测试阶段那么输入的 x ∗ x^* x∗就是前面输出的结果。这样Decoder结构也可以模拟人类说话的顺序输出不同长度的序列。存在的问题当使用RNN处理长文本序列的时候会出现两个问题。首先第一个问题就是其顺序结构导致无法捕捉长序列上下文信息。Decoder做预测非常依赖于Encoder最后的输出但是如果句子过长Encoder最后的输出状态会忘记前面的句子内容也就是信息丢失。第二个问题就是并行处理序列困难。因为RNN的内部循环结构所以只能顺序处理序列无法对序列整体进行并行计算。补充Seq2Seq是一个端到端(end-to-end)的网络模型所谓的端到端神经网络是指能够直接从原始数据中提取特征并输出最终结果的模型不需要显式地进行手动特征提取或分步骤处理。 Transfomer TransfomerTransfomer的核心就是Attention注意力机制在RNN的Encoder-Decoder基础上加入了注意力机制能实现长序列的并行处理从而来解决前面提到RNN的两个问题。为什么能解决RNN处理长文本序列的问题加入Attention注意力机制后的Seq2Seq模型不会忘记原始输入句子信息而且Decoder也能够知道句子中哪些词比较重要但是会增加额外的计算量。应用除了前面提到的自然语言处理Natural Language ProcessingNLPTransfomer还在计算机视觉Computer VisionCV中也有所应用。卷积神经网络Convolutional Neural NetworkCNN作为计算机视觉领域中一个热门的研究方向非常擅长特征提取但是其更关注局部的信息。CNN的核心是卷积而Transformer的核心是自注意力机制。自注意力机制允许模型从图像中任意位置获取信息更好地处理长距离依赖关系。而CNN则需要在多层卷积之后才能将图片中距离比较远的像素点关联起来。 Attention注意力机制 Attention介绍就是模仿人的注意力机制设计人看到一个东西会把注意力放在需要关注的地方把其它无关的信息过滤掉。下面的图是人类看到图片注意力热力图。 Attention原理在Seq2Seq模型介绍的时候会发现Encoder只会把最后一个隐藏状态输出对于前面隐藏状态全部都舍弃了而Attention做得就是把舍弃掉的隐藏信息给利用起来。在Seq2Seq举的翻译例子中把“Hellow world”翻译为“哈喽世界”“Hellow”对“哈”、“喽”、“世”和“界”每个字的贡献都是一致但是实际上“Hellow”应该对“哈”和“喽”的贡献要多些而对“世”和“界”的贡献要少些。如何分配这些贡献程度并得到合适的向量传递给Decoder这就是Attention要实现的主要是用在Encoder部分。 Attention机制 Attention机制的核心就是QKV。 QQueryQuery包含了读者的问题的信息。 KKeyKey与Value相关联Key是原始信息所对应的关键性信息相当于对原始信息做了某种转换得到的词向量。 VValueValue理解为原始捕捉到的信息不受到任何注意力的干扰。计算步骤 Query和Key进行相似度计算得到Attention Score。对Attention Score进行Softmax归一化得到权值矩阵相当于每个贡献程度。权重矩阵与Value进行加权求和计算。看过一个比较好的比喻可以把Attention过程比作我们在浏览器搜索文章的过程。 Value相当于浏览器里面所有的文章Key相当于每个文章对应的标题标题是从文章张提炼的而Query相当于我们输入到浏览器中的问题。Attention搜索过后就会对每个文章和问题匹配度进行一个得分来对原来的文章筛查。总结QKVQuery相当于问题Value相当于一组答案Key相当于该答案所对应问题的关键字分类软硬注意力软注意力Soft Attention加权图像的每个像素。高相关性区域乘以较大的权重而低相关性区域标记为较小的权重。注意力模块相对于输入是可微的所以通过标准的反向传播方法进行训练。大多数软注意力模块都不会改变输出尺寸从而可以很灵活的插入到卷积网络的各个部分。但会增加训练参数从而导致计算成本有所提高。硬注意力Hard Attention一次选择一个图像的一个区域作为注意力设成1其他设为0。通常是不可微的硬注意力相对软注意力更难训练不能反向传播但是可以借助如强化学习的手段去学习。注意力域注意力机制中的模型结构分为三大注意力域来分析。主要是空间域(spatial domain)通道域(channel domain)混合域(mixed domain)。空间域将图片中的的空间域信息做对应的空间变换从而能将关键的信息提取出来。对空间进行掩码的生成进行打分代表是Spatial Attention Module。通道域类似于给每个通道上的信号都增加一个权重来代表该通道与关键信息的相关度的话这个权重越大则表示相关度越高。对通道生成掩码mask进行打分代表是SEnet, Channel Attention Module。混合域空间域的注意力是忽略了通道域中的信息将每个通道中的图片特征同等处理这种做法会将空间域变换方法局限在原始图片特征提取阶段应用在神经网络层其他层的可解释性不强。代表主要是BAMBottleneck Attention Module和CBAMConvolutional Block Attention Module。

查看全文

http://www.pierceye.com/news/104779/