当前位置: 首页 > news >正文

有什么网站是可以做动态图的塑胶原料东莞网站建设

有什么网站是可以做动态图的,塑胶原料东莞网站建设,小程序招商加盟平台,门户类网站前台本篇文章学习总结 李宏毅 2021 Spring 课程中关于 Transformer 相关的内容。课程链接以及PPT#xff1a;李宏毅Spring2021ML这篇Blog需要Self-Attention为前置知识。 Transfomer 简介 Transfomer 架构主要是用来解决 Seq2Seq 问题的#xff0c;也就是 Sequence to Sequence…本篇文章学习总结 李宏毅 2021 Spring 课程中关于 Transformer 相关的内容。课程链接以及PPT李宏毅Spring2021ML这篇Blog需要Self-Attention为前置知识。 Transfomer 简介 Transfomer 架构主要是用来解决 Seq2Seq 问题的也就是 Sequence to Sequence 问题。输入是一个长度不确定的Sequence。输出是一个长度不确定由机器自动决定的Sequence。 下面是一些常见的Seq2Seq的例子 Speech Recognition 语音识别Machine Translation 机器翻译Speech Translation 语音翻译 如下图所示 我们常见聊天机器人Chat bot其实就是一种 Seq2Seq 模型。 Seq2Seq for Syntactic Parsing Seq2Seq 在 文法解析 任务中也能得到应用如下图所示模型会得到一个句子的输入模型需要输入出句子中每个词在句子中的词性分析。 Seq2Seq for Mutil-label Classification Mutil-lable Classification: 一个物体可能会被分到多个标签比如 对于一个人来说他的标签有 男人、老师、儿子 等标签。 所以对于 Mutil-label Classification 来说输出的也是一个sequence是不确定长度的。 Seq2Seq for Object Detection 综上我们直到 Seq2Seq Model 是一个非常有用的model是一个powerful 的model在很多不同种类的任务下都有不错的表现。 Seq2Seq’s Model in Transformer 一般来说Seq2Seq‘s Model 由两部分组成 Encoder接收 input sequence并且将处理好的input传递给Decoder。Decoder输出 output sequence。 如下图接下来我们依次学习 Encoder 和 Decoder。 Encoder Encoder 所要做的事情用白话来讲就是接收一排向量输出数量相同的一排向量。要完成这件事情其实 CNN 和 RNN 都能做到但是 Transformer 中是使用 Self-Attention 这个方法来实现的。 如下图所示 上图右边就是Transformer中Encoder的架构图我们先不管这个复杂的架构我们先从简单的方面讲讲它的架构。 在Encoder中会分成非常多的Block这些Block有以下特点 不是单独的layer它里面会包含几层layer。每一个Block输出一排向量输出数量相同的一排的向量。每一个Block做的事情将输入经过Self-Attention然后经过FC得到最终输出的一排向量。 如下图 但是在Transformer中的Block稍微更复杂一些它使用Residual Connected每个output不只是output而会加上input有助于较少梯度消失的情况。得到残差的Self-Attention之后还需要经过 Layer Normalization也就是规范化。经过Layer Normalization 之后会经过FCFC的输出也是一种Residual Connected也需要加上input到最终的output中。最终再经过一次 Layer Normalization即可获得 Block 最终输出的一排向量。 如下图所示 现在我们充分理解了每个Block内部的机制我们再回过头来看之前复杂的Encoder架构图 其中有两点值得注意的是 在 input的时候加入了Positional Encoding携带了位置信息。使用的是 Mutil-Head Attention。 Decoder Decoder 其实有两种 Autoregressive ATDecoderNon-Autoregressive NATDecoder Autoregressive Decoder’ s Example in Speech Recognition 首先我们观察上图左边是一个Encoder刚刚已经讲解过了现在我们只需要将其理解为一个输入一排向量输出相同数量一排向量的模块即可。 Encoder的输入会以某种方式现在暂时不用理解将输入传递给Decoder。 Decoder 首先会获取第一个输入向量这个向量是一个特别的token代表句子的开始。 然后Decoder会输出一个向量这个向量的长度是这个任务的词汇表的长度每个位置代表该位置字的出现概率是经过Softmax的输出。 因此第一个向量中 “机” 的概率是最大的第一个输出的向量代表 “机” 字。 之后Decoder 会得到第二个输入而第二个输入就是 开始的Special Token 刚刚输出的”机“作为输入然后产生第二个输出向量而这个向量中概率最大的是 ”器“ 这个字。 再然后Decoder 会得到第三个输入而第三个输入就是开始的Special Token 刚刚输出的”机“ 刚刚输出的”器“作为输入然后产生第三个输出向量这个向量中概率最大的是”学“这个字。 依次类推每次输入都是包含之前的输出。 注意点每一次的输出都依赖于前一次的输出这样可能会产生 Error Propagation 的问题也就是”一步错步步错“。 至此我们大致了解Decoder中的机制。 下面我们来对比一下 Encoder 和 Decoder 如下图所示 我们发现其实出了被灰色盖住的地方Encoder 和 Decoder 的结构其实是差不多的除了这个Masked。 下面我们介绍一下Masked Self-Attention 它的核心思想其实很简单Self-Attention 是为了融合上下文信息的Masked Self-Attention 其实就是只是融合之前的上下文信息而不去融合之后的上下文信息如下图所示 按照之前一般的情况来说输出b2需要融合a1、a2、a3、a4 这4个向量的信息。 但是Masked Self-Attention 只会融合之前的信息也就是对于输出b2只会融合 a1、a2 的信息。 为什么需要Masked Self-Attention 因为我们的输出是一个一个产生的先有 a1 再有 a2 再有 a3。Encoder 是一次性将所有的输入读取。Decoder 的输入是自己一步一步产生出来的。 Decoder 需要自己决定输出 Sequence 的长度 简单来说刚刚提到一个Special Token表示句子开始所以我们也可以设置一个Special Token作为结束这个特殊字符放进Vocabulary中当输出的向量中概率最大的是这个表示结束的特殊字符即代表输出结束。 Non-Autoregressive Decoder AT Decoer刚刚已经介绍了 AT Decoer它是逐步产生输出的Sequence通过读取之前的输出作为输出来产生当前的输出是一步一步产生所有输出的。NAT Decoder相比于AT Decoder它是一次性产生全部的输出一次性产生整个Sequence。 这里会有一个问题NAT Decoder 怎么决定输出Sequence输出长度的呢 额外训练一个Classifier它读取Encoder的输出然后输出一个数字这个数字代表NAT Decoder 输出Sequence的长度。 也用一个特殊的字符代表结束每次输出忽略掉结束字符后面的输出。 NAT Decoder 优点 速度快因为是一次性产生所有的输出。可以通过对Classifier的设置人可以控制输出的长短。 但是目前来说AT Decoder 会比 NAT Decoder 要更好。 Encoder - Decoder 下面我们来学习 Encoder 和 Decoder 的具体联系。 在上图中Encoder的输出在Decoder中间的一个Block处进行传递主要是通过一种叫做Cross Attention的机制。 Cross Attention 其中Decoder经过Masked Attention会输出一个向量这个向量需要和Encoder产生的向量融合上下文信息产生新的输出。 Decoder向量提供q向量而Encoder的向量提供k向量用于计算Attention Socre。通过获得的Attention Score 和 对应v 向量相乘再经过FC获得最终的融合上下文的输出向量。之所以成为 Cross Attention是因为一部分向量来自于Encoder的输出一部分向量来自于Decoder自己将这些向量的相关信息进行融合。 这就是 Cross Attention 机制的原理。 在原始Paper中Decoder拿到的关于Encoder的输出向量是Encoder最终的输出但是经过各个方面的改进Decoder也可以拿到Encoder不同层次的输出进行融合上下文信息如下图所示 Training 对于Training这件事我们以语音辨识作为例子来讲解。 首先我们需要一个训练资料包含语音以及它的label。 语音就是听上去是 ”机器学习“ 这四个字的语音材料。label就是这段语音的文字”机器学习“。 对于Decoder来说它的输出是一个一个产生的。 对于第一个输出它首先读取 BOS Begin of Sentence这样一个Special Token然后产生一个向量这个向量包含了所有可能输出字符的概率也就是一个概率分布而这个概率分布应该和 Ground Truth 越接近越好也就是使真实值和预测值之间的 Cross Entropy 越小越好。 这个训练过程其实就是和分类问题的训练过程使一致的都是通过Minimize Cross Entropy 来进行训练的。 一个值得注意的地方是不要忘记最后一个表示 结束含义的Special Token。 Tips 下面是一些 Seq2Seq 训练的tips。 Copy Machanism 有时候模型所需要学习的并不是创造某段文字而是在某些时刻直接复制输出当前的输入文字。 比方说欢迎语、摘要。 这种具有输入复制能力的模型Pointer Network Guided Attention 课程中给出了一个语音合成的例子也就是给定一段文字需要机器将文字转为语音念出来。 但是对于 ”发财发财发财发财“ 、”发财发财发财“、”发财发财“ 这样重复出现的词汇机器可以非常正确的念出来但是对于”发财“ 这样单独的一个词汇机器反而出现问题只念了一个 ”财“ 字。 这样的错误表明输入的有一些东西机器忽略掉了没有看到。 简单来说机器的Attention需要被引导也就是 Guided Attention不然机器可能会产生一些乱七八糟的Attention顺序以至于忽略掉一些重要的信息。 Beam Search 假设某种情况下模型只会产生两个词汇A和B。首先产生第一个词汇的时候发现 A 的可能性更大所以产生A。第二步产生第二个词汇的时候发现B的可能性更大所以产生B。 … 这种方式每次都产生可能性更大的那种情况。 有没有可能在某些情况下 舍弃当前最优解而会获得全局最优解呢 这个问题就是Beam Search所解决的问题。 一般来说对于有准确答案的问题只有一个答案的问题比如语音辨识这个时候采用Bean Search 会更好一些。而对于一些具有创造性的回答来说会需要一些随机性这个时候往往用一般的每次采用最优解会更好一些。
http://www.pierceye.com/news/391540/

相关文章:

  • 一站式网站建设业务沈阳网站建设 熊掌号
  • 58同城网站建设目的劳务公司怎么注册需要什么要求
  • 龙华网站建设设计公司国家中小学智慧教育平台
  • 摄影网站采用照片做宣传_版权费是多少?pythom+网站开发规范
  • 免费制作一个自己的网站吗达内教育口碑怎么样
  • 2015做那个网站能致富网站建设模板ppt模板
  • 网站后台管理系统教程自助网站建设程序
  • 做黑帽需不需要搭建网站没有做等保的网站不能上线对吗
  • 怎么在微信建立公众号郑州专业seo首选
  • 万网网站后台国家域名
  • 怎么做 niche网站临港注册公司优惠政策
  • 做网站开发怎么做网站推广的步骤
  • 网站空间文件删不掉软文免费发布平台
  • 电子商务网站开发教程论文推广app平台有哪些
  • 郑州专业的网站建设优化自己的网站
  • 申请渠道门户网站是什么意思微信公众平台推广网站
  • 公司网站未备案公众号如何推广产品
  • 网站建设服务器环境配置郑州网站建设企业名录
  • e福州官方网站wordpress注册目录
  • 国际外贸网络交易平台网页seo搜索引擎优化
  • 做网做网站建设网站建设图片怎么切
  • 国外数码印花图案设计网站36kr wordpress
  • 上海网站建设设计公司zencart 网站入侵
  • 阜蒙县自治区建设学校网站汉中市住建局建设厅网站官网
  • windows 2008 iis怎么搭建网站手机网站模板建站
  • 优设网官网首页seo教程搜索引擎优化
  • 做问卷给钱的网站页面设计结课总结
  • 洛阳集团网站建设wordpress 深度优化
  • python做网站缺点湛江市建网站
  • 济南网站建设(选聚搜网络)在线购物网站建设