一号建站,自己做的网页怎么上传网站吗,公司设计一个网站需要多久,wordpress小工具推荐Transformer
网络结构
Transformer也是由编码器和解码器组成的。 每一层Encoder编码器都由很多层构成的#xff0c;编码器内又是self-attention和前馈网络构成的。Self-attention是用来做加权平均#xff0c;前馈网络用来组合。 但是decoder有点不同#xff0c;多了一层En…
Transformer
网络结构
Transformer也是由编码器和解码器组成的。 每一层Encoder编码器都由很多层构成的编码器内又是self-attention和前馈网络构成的。Self-attention是用来做加权平均前馈网络用来组合。 但是decoder有点不同多了一层Encoder-Decoder Attention。这一层的作用是关注全局也就是不仅仅要关注编码还要关注解码过程。在翻译中也就是不仅仅关注翻译后的内容还要关注翻译前的上下文内容。 Self-attention又可以拆解成多个部分就变成了Multi-Head Attention。 最终得到了整个网络结构。 数据流程
首先把单词做统一长度的向量化再嵌入位置信息这样方便单词的统一最终是同一长度比如都是512位。 然后再通过一个编码器生成下一个编码。这里的Self-attention就是个零件比如单词自查表它的作用就是通过权重标明相互之间的关系并且嵌入上下文信息。 具体的方法是每个向量先嵌入位置信息 再乘以三个训练好的向量Q、K和V矩阵。
我感觉看上去像是一个数据库的查询操作Q就是我提出了一个查询语句K就是查询时候键值两个相乘就得到了一个特征向量。V就像是数据库里面的值所以就像利用前面计算得到的特征向量分别计算V的相关性。 用一个单词的K向量和所有单纯的Q向量相乘得到的权重就是Attention。 然后通过归一化后利用softmax函数过滤掉不相干的单词。再乘以V向量加权求和。最终得到输出向量。
所有的步骤就只需要知道反正最后得到了单词的权重计算。 用矩阵描述就是先把X乘以三个矩阵。 然后利用得到的Q和K计算Z矩阵。 如果是Multihead-Attention就会使用多个不同权重的矩阵计算多次得到多个Z。Multihead的作用是消除QKV初始值的影响。那就像是八个不同的人做更能够排除意外的影响。 最后通过一个加权平均合成一个Z矩阵。 梳理
变形金刚要变形从小车到机器人。
编码器一开始先拆成零件。 Self-attention就是给出一个变形说明书说明零件之间的关系和权重。 左边编码把输入转换成了降维的向量和零件说明书K和V右边解码还需要看两个东西一个自己的拆解说明书和与其他零件的项目关系一个零件一个零件的组装。 最后线性层把向量投影到一个很长的序列中包含所有单词的序列。 softmax做归一化得到一个最大的概率。 参考资料
【【Transformer模型】曼妙动画轻松学形象比喻贼好记】 https://www.bilibili.com/video/BV1MY41137AK/?share_sourcecopy_webvd_source91d02e058149c97e25d239fb93ebef76