当前位置: 首页 > news >正文

网站开发 面试 适当吹牛买房

网站开发 面试 适当吹牛,买房,潍坊正规网站建设公司,学网站论坛Transformer 结构浅析 文章目录 Transformer 结构浅析Transformer 网络结构编码器位置编码多头注意力层AddNormFeed Forward 解码器带掩码的多头注意力层多头注意力层 预测 Transformer 网络结构 Transformer模型的网络结构如图#xff0c;且transformer结构主要分为两部…Transformer 结构浅析 文章目录 Transformer 结构浅析Transformer 网络结构编码器位置编码多头注意力层AddNormFeed Forward 解码器带掩码的多头注意力层多头注意力层 预测 Transformer 网络结构 Transformer模型的网络结构如图且transformer结构主要分为两部分其中一部分为encode编码器一部分为decode解码器。且Encoder 和 Decoder 都包含 6 个 block。 编码器 位置编码 第一步将sentence输入网络并进行词编码并与位置编码相加得到输入编码器的block。 其中transformer中的位置编码采用如下公式进行计算 P E ( p o s , 2 i ) sin ⁡ ( p o s / 1000 0 2 i / d ) P E ( p o s , 2 i 1 ) cos ⁡ ( p o s / 1000 0 2 i / d ) \begin{aligned} PE_{(pos,2i)}\sin{(pos/10000^{2i/d})}\\ PE_{(pos,2i1)}\cos{(pos/10000^{2i/d})} \end{aligned} PE(pos,2i)​PE(pos,2i1)​​sin(pos/100002i/d)cos(pos/100002i/d)​ 其中 p o s pos pos 表示单词在句子中的位置 d d d 表示 PE的维度 (与词 Embedding 一样) 2 i 2i 2i 表示偶数的维度 2 i 1 2i1 2i1 表示奇数维度 (即 2 i ≤ d , 2 i 1 ≤ d 2i≤d, 2i1≤d 2i≤d,2i1≤d)。使用这种公式计算 PE 有以下的好处 使 PE 能够适应比训练集里面所有句子更长的句子假设训练集里面最长的句子是有 20 个单词突然来了一个长度为 21 的句子则使用公式计算的方法可以计算出第 21 位的 Embedding。 可以让模型容易地计算出相对位置对于固定长度的间距 k k kPE(posk) 可以用 PE(pos)计算得到。 因为 : sin ⁡ ( A B ) sin ⁡ ( A ) cos ⁡ ( B ) cos ⁡ ( A ) sin ⁡ ( B ) cos ⁡ ( A B ) cos ⁡ ( A ) cos ⁡ ( B ) − sin ⁡ ( A ) sin ⁡ ( B ) \sin(AB) \sin(A)\cos(B) \cos(A)\sin(B) \\ \cos(AB) \cos(A)\cos(B) - \sin(A)\sin(B) sin(AB)sin(A)cos(B)cos(A)sin(B)cos(AB)cos(A)cos(B)−sin(A)sin(B) 设 X X X为输入的sentence词编码与位置编码相加的结果 多头注意力层 然后将 X X X​输入多头注意力中其中自注意力机制如下图所示 首先将 X X X映射到 Q , K Q,K Q,K空间中然后根据缩放点积进行打分最后使用softmax的到概率最后与value相乘的到输出结果 其中多头注意力的结构如图所示 其本质是采用多个 V , K , Q V,K,Q V,K,Q矩阵计算自注意力并进行拼接。 AddNorm 然后将多头注意力的结果输入到AddNorm层中其中这部分采用残差连接的方式构成。 LayerNorm ⁡ ( X MultiHeadAttention ⁡ ( X ) ) LayerNorm ⁡ ( X FeedForward ⁡ ( X ) ) \begin{aligned} \operatorname{LayerNorm}\left(X\operatorname{MultiHeadAttention}(X)\right)\\ \operatorname{LayerNorm}( X \operatorname{FeedForward}( X) ) \end{aligned} ​LayerNorm(XMultiHeadAttention(X))LayerNorm(XFeedForward(X))​ 并将输出结果输入Feed Forward中 Feed Forward 其中Feed Forward的结构如图所示 其数学表达为 max ⁡ ( 0 , X W 1 b 1 ) W 2 b 2 \max(0,XW_1b_1)W_2b_2 max(0,XW1​b1​)W2​b2​ 然后在将输出结果经过AddNorm层输入到解码器中 解码器 带掩码的多头注意力层 因为在序列任务中往往是从前往后开始进行的为了防止提前知道以后的信息所以使用了带掩码的多头注意力机制 根据下图可知 计算完缩放点积后与掩码矩阵相乘在计算softmax并与v相乘。然后将结果输入到AddNorm层中。 多头注意力层 接受来自上一层AddNorm的输入并计算Q矩阵然后根据 Encoder 的输出计算得到 K, V后续的计算与之前的一致。 预测 将解码器的输出输入到线性层并使用softmax输出得到概率
http://www.pierceye.com/news/433472/

相关文章:

  • asp网站开发技术总结与收获建设银行网站怎么登录密码忘了怎么办
  • 营销型企业网站 网络服务flashfxp 网站
  • 青岛网站建设服务平台邢台专业网站建设费用
  • wordpress做网站好吗戴南做网站
  • 中山精品网站建设价位网站开发后台一般用什么
  • 万网 手机网站物联网平台介绍
  • 墨星写作网站网站建设使用的什么语言
  • wdcp网站搬家wordpress 改成宽屏
  • 汽车网站建设规划书洛阳恢复客运最新通知
  • 商洛建设网站有了网站源码可以做网站吗
  • 网站运营学习电子商务网站建设与管理的实验报告
  • 上海设计网站与太原免费网络推广哪里朿
  • 网站前端建设需要学会什么珠海网站优化公司
  • 北京微网站wordpress添加代码运行
  • 浙江省住房和城乡建设厅网站网站开发流程博客
  • 网站刷流量会怎么样广东网站备案时间
  • 昆明企业建站模板如何做网站品类
  • 学做网站去哪学网站开发app开发
  • 如何编写网站建设销售的心得网页设计制作方法
  • seo工具网站课程网站建设的步骤
  • 商务网站的类型一共有几大类小程序搜索排名帝搜sem880官网
  • 做海报的高清模板的网站诛仙3官方网站做花灯答案
  • 好用的网站后台管理系统黑龙江最新通知今天
  • 做招聘网站需要多少钱als冰桶挑战赛的网络营销方式
  • wordpress单位内网做网站云南省文山州网站建设
  • 单页网站制作视频教程四川餐饮培训学校排名
  • 微信公众平台网站建设wordpress中英切换
  • 万网x3主机l系统放两个网站自学设计的网站
  • 网站微信建设运维经验分享图营销app
  • 西安网站开发软件常州注册公司