当前位置: 首页 > news >正文

潍坊知名网站建设服务商做电商必须知道的网站

潍坊知名网站建设服务商,做电商必须知道的网站,豆瓣网站是怎么建设的,wordpress程序参考文献#xff1a; Speech Recognition (option) - RNN-T Training哔哩哔哩bilibili 2020 年 3月 新番 李宏毅 人类语言处理 独家笔记 Alignment Train - 8 - 知乎 (zhihu.com) 本次省略所有引用论文 目录 一、如何将 Alignment 概率加和 对齐方式概率如何计算 概率加和计… 参考文献 Speech Recognition (option) - RNN-T Training哔哩哔哩bilibili 2020 年 3月 新番 李宏毅 人类语言处理 独家笔记 Alignment Train - 8 - 知乎 (zhihu.com) 本次省略所有引用论文 目录 一、如何将 Alignment 概率加和 对齐方式概率如何计算 概率加和计算原理 概率加和计算方式 二、RNN-T 的模型训练 模型训练思路 偏微分计算-1-展开变形 偏微分计算-2-第一个偏微分求解 偏微分计算-3-第二个偏微分求解 三、RNN-T 的模型测试推理/解码 目标函数的近似 实际操作 四、总结——LAS、CTC、RNN-T 模型比较 一、如何将 Alignment 概率加和 对齐方式概率如何计算 想要知道如何将所有的对齐方式的概率相加我们就需要知道一条对齐方式的概率是怎么计算的。由于 HMM、CTC 和 RNN-T 的概率计算方式在本质上是一样的因此我们下面的实验与计算全都基于 RNN-T。 我们将一个 alignment 通过状态图的方式表现出实际上需要计算这个 alignment 的概率只需要将所有位置的概率进行连乘就行。比如h ∅c∅∅a∅t∅∅。P(h|X) 就等于每个位置的发射概率和转移概率的连乘也就是第一次输出 ∅ 的概率乘以给定 ∅输出 c 的概率乘以给定 ∅c输出 ∅ 的概率…… 我们将整个过程落实到实际操作当中去看看。首先我们需要回顾 RNN-T 的架构。RNN-T 的一大神奇之处在于它单独训练了一个 RNN将已输出的 token 当作输入去影响 RNN-T 接下来的输出。 我们使用 h 表示经过 encoder 的声学特征向量图中上半部分蓝色的方块表示单独训练的 RNN。在起始阶段没有产生任何的 token我们就输入一个 BOS (Begin of Sentence)让它产生 l0。我们把编码产生的h1与l0一起输入给解码器让它产生一个概率 p_{1,0}。这里的下标表示的意思为输入第一个声学特征向量1没产生任何 token 时0RNN-T 产生出的概率分布。 那么 ∅ 落在句首的概率就可以计算了也就是从 p_{1,0} 中采样出 ∅ 的概率。 接下来我们需要计算有了 ∅ 以后产生 c 的概率。值得一提的是刚刚产生的 ∅ 对我们的 RNN 并没有什么影响。因为 RNN 只吃产生的 token。不过产生的 ∅ 会对 Encoder 产生影响这代表当前的隐藏层向量已经被读完了没啥价值了需要切换下一个向量。 因此在下一步计算过程中我们将 h2 和之前的 l0 一起输入编码器输出得到概率 p_{2,0}。那么产生 c 的概率也就好算了就是从概率分布 p_{2,0} 中采样得到 c 的概率。 接下来该计算有 ∅c 后产生 ∅ 的概率。由于我们刚刚输出了 token cRNN 就会受到影响输入 token c 以后产生 l1而 Encoder 不变因为它没有看到 ∅所以不需要更换向量。因此我们最终将 l1 和 h2 丢给解码器得到新的概率分布 p_{2,1}从中我们可以得到我们需要的概率。 按照上面的过程我们一直反复下去最终我们就可以算出所有需要的概率我们将所有的概率相乘就是我们最终想得到的这一个 alignment 的概率。 概率加和计算原理 那么我们是怎么计算所有对齐方式的概率加和的呢这就要归功于我们刚刚所说的 RNN-T 的神奇之处使用单独的 RNN 来表示 token 之间的关系而忽略 ∅ 的影响。这在后续的训练中大有帮助。 我们看下图实际上下图中的每一个格子都可以对应到一个概率分布由于刚刚定义的概率分布的下标分别表示读到的声学特征向量以及已输出的token数量那么格子对应的概率分布就显而易见。比如图中给出了 p_{4,2} 的概率分布的格子这就表示我们已经读到 x4并且前边已经输出了两个 token ca。 而对于 p_{4,2}需要计算之后产生 ∅ 或者 t 的概率都可以从中得到。 神奇之处在于每一个格子代表的概率分布实际上都是固定的它们不会受到如何走到当前格子的走法的影响因为就其输入来说无论怎么走输入的都是 h4 和 l2。 概率加和计算方式 HMM 采用的是 forward 和 backward 算法来计算所有对齐方式的概率分数。而实际上RNN-T 和 HMM 所用的方法也是一模一样的。 我们新定义一个变量 α_{i,j}其表示已经读取了 i 个的声学特征向量输出 j 个 token 的所有对齐方式的概率分数之和。比如 α_{4,2}就是由读取 4 个声学特征向量输出 2 个 token 的所有 Alignment 的分数相加之和。 那么 α_{4,2} 有没有方法计算呢有。我们可以通过 α_{4,1} 和 α_{3,2} 进行计算。事实上在变成 α_{4,2} 之前有两种可能一种是读了 4 个声学特征向量输出一个 token 了准备输出下一个还有一种可能是已经读了 3 个声学特征向量产生了两个 token准备读取下一个声学特征向量产生 ∅ 。假设我们的 α_{4,1} 和 α_{3,2} 已经计算出来了则结合之前定义的 p_{i, j}我们可以有   也就是 α_{4,1} 代表的所有 alignment 乘上之后产生 token a 的概率加上 α_{3,2} 代表的所有 alignment 乘上之后产生 ∅ 的概率。 根据上面的式子我们就可以得到一个基于动态规划的递推式这样就能从左上角开始一直算出最后一个格子的分数总和了。 二、RNN-T 的模型训练 我们刚刚讲述了如何去穷举所有的对齐方式进行概率总分计算不过这一切都需要基于我们已经有了训练好的 RNN-T 的基础上。所以本节我们来了解一下如何训练 RNN-T。 模型训练思路 首先我们要明确我们的训练目标。假设 Y_hat 是我们的 Ground Truth也就是正确的识别文本那么也就是说我们希望学习到一组参数 θ使得 Y_hat 的概率越大越好   那么我们如何 optimize 这个函数呢当然是使用梯度下降法进行。所以我们下一个要解决的问题就是如何求取函数对参数求偏微分。   偏微分计算-1-展开变形 我们将概率求解函数展开它就像我们上面所说是由一堆对齐概率加和而成的。而每一个对齐概率又是由某些概率相乘而得到的。 哪些概率是由从起点到终点的某条路径上的每一个箭头所代表的概率也就是在某个状态下产生某一个 token 的概率相乘得到的。因此由这一系列所有的箭头相乘然后相加就最终得到了我们的概率。 而这些产生某一个 token 的概率又受到模型参数 θ 的影响目标概率又受到这些小概率的影响所以我们可以先计算某个小概率对 θ 的偏微分然后再计算目标概率对这些小概率的偏微分和之前的相乘然后再计算下一个小概率对 θ 的偏微分乘上目标概率对小概率的偏微分……以此类推最终将所有结果加和就可以得到我们的目标式子即 偏微分计算-2-第一个偏微分求解 好的经过上面的变形现在压力给到了如何计算小概率即每个箭头代表的概率对参数 θ 的偏微分。 我们以 p_{4,1}(a) 对 θ 的偏微分的计算作为例子。   其计算方式或者说训练方式其实和普通模型一样还是采用经典的 BPTTBackpropagation Through Time反向传播通过时间时序的反向传播。一开始最右边的结果计算和标签的损失反向传播传到编码器再传到上面的解码器 RNN。 偏微分计算-3-第二个偏微分求解 第一个偏微分式子可以解了下面压力来到了第二个偏微分式子上也就是目标概率对每个箭头概率的偏微分。我们以计算对 p_{4,1} 的偏微分为例公式如下   首先我们要把包含 p_{4,1} 的对齐方式和不包含 p_{4,1} 的对齐方式分开算   由于第二项是没有 p_{4,1} 的因此当做偏微分的时候第二项就消失了。而第一项我们知道是由很多箭头概率相乘相加得到的。既然有 p_{4,1}我们就可以将它提取出来如下图 这样偏微分后就只剩提取出 p_{4,1} 之后的 other 了。并且我们还可以把 other 写成 P/p然后再把这个 1/p 提出来就可以了。 所以问题就被转化成了计算带有 p_{4,1} 的对齐方式的概率之和。我们应该如何计算呢此时我们可以再引入另一个辅助变量 β_{i,j}它与α_{i,j}很像它表示从第 i 个声学特征开始且输出到第 j 个 token在当前位置到结束的所有对齐方式分数之和。 β_{4,2} 如图所示它表示已经产生了4个声学特征和输出两个 token 的情况下在当前位置走到结尾为止的所有路径的分数总和。β_{i,j} 刚好是 α_{i,j} 的反过来。前面 α_{i,j} 对应着 HMM 的正向传播算法这里 β_{i,j} 对应着 HMM 的反向传播算法。通过动态规划算法于是我们有递推式β_{i,j} β_{i1,j}p_{i,j} β_{i,j1}p_{i,j}。 有了递推式以后我们就可以将所有点的 β 值全部计算出来。而有了 α 和 β 的值以后我们就可以计算带有 p_{4,1} 的对齐方式的概率之和了。 我们看下图所有从起始位置到 (4,1) 的候选对齐路径的分数和 α_{4,1} 乘上 p_{4,1}(a) 后再乘上所有从位置 (4,2) 到终点的候选对齐路径的分数和 β_{4,2}这就是所有包含 p_{4,1}(a) 的分数总和。 我们将式子带入并乘上系数p_{4,1}(a) 得到约分最终的偏微分结果就是 α_{4,1}β_{4,2}。 因此带入最终的式子后就能计算全部候选对齐的得分对模型参数的梯度。然后反向传播更新模型参数进行训练。我们就可以进行正常训练了。 三、RNN-T 的模型测试推理/解码 目标函数的近似 训练好模型了以后我们就可以进行模型的使用了。我们的目标函数如下也就是找到一个 Y使得 P of Y given X 达到最大值这个 Y 就是模型语音辨识的结果。   这实际上不是一个简单的问题。理想状态下我们需要穷举所有的 Y来计算概率然而别说穷举不容易实现就连计算概率都是大量的对齐方式概率相加之和就更不容易了。 所以我们采用一些近似估计的方法首先就是对 “将所有对齐方式概率加和作为分数” 这一条进行近似。我们不把所有的候选对齐分数加起来而是选取每一个Y中分数最高的那个对齐方式的概率作为分数。不过这个近似需要基于这样一个事实概率最大的对齐方式要比其他的对齐方式要大很多。那事实真的是这样吗老师反正我信了 我们将概率最大的对齐方式记作 h*然后用 h* 进行 inverse找到其对应的 Y*就是最终解码的结果啦。计算 P of h given X 的方式我们在之前都有讲过这里在图中呈现回顾一下不再用文字赘述。 实际操作 实际中要怎么找一个概率最高的对齐方式呢RNN-T 每一个时间步都会跑出一个概率分布。我们把每个概率分布中概率最大的那个 token 取出来就是 h* 的一个近似。不过每次都取概率分布中概率最大的不见得会使得整个对齐方式的概率是最大的原因距离可以看束搜索 Beam Search 讲解。不过没有关系我们照样可以采用 Beam Search 的方法来得到更准确的结果。 四、总结——LAS、CTC、RNN-T 模型比较 我们看下面这张表。在解码部分LAS 和 RNN-T 会考虑前面的时序对当前时序的影响。而 CTC 并不会考虑之前的时间步已经生成出来的token。所以 LAS 和 RNN-T 在解码部分是相对比较强的。 在对齐部分CTC 和 RNN-T 都是需要考虑对齐的。而因为中间的注意力层LAS不用显式地考虑对齐而是采用 soft alignment使用注意力机制来找出语音和文字之间的关系。 在训练部分LAS 只需要直接训练就行而 CTC 和 RNN-T 则需要将所有的对齐方式概率相加比较麻烦。 对于语音识别模型在线识别实时识别也是一个很重要的功能使用者一边说一边就能跑出语音辨识的结果。对于 LAS由于注意力一次要看全部也就是需要等语者说完才能进行推理因此 LAS 不能在线识别。而 CTC 和 RNN-T 都是可以的之前有说过Pixel 的语音助手就是使用 RNN-T 进行语音识别的。 课程也告一段落啦我之后会将所有的语音学习内容整合成一个pdf欢迎大家下载~如果觉得csdn上下载不方便也可以找我私聊联系~
http://www.pierceye.com/news/480500/

相关文章:

  • 百度网站收录提交入口全攻略网站支付体现功能怎么做
  • 网站更改文章标题主流跨境电商平台有哪些
  • vue做直播网站上海最繁华的五个区
  • 做网站和微信小程序电子商务网站建设与管理的背景
  • 做网站国内阿里云虚拟主机多少钱东莞常平中学高中部
  • 用.net做购物网站灵山建设局网站
  • 烟台网站设计制作公司电话python购物网站开发流程
  • 医疗网站怎么做seo怎样通过网址浏览自己做的网站
  • 湖北现代城市建设集团网站wordpress用户头像插件
  • 徐州双语网站制作响应式网站开发pdf
  • 怎么做建设网站公司创建一个网站多少钱
  • 好看的扁平化网站wordpress插件编写
  • 深圳网站设计模板ps可以做网站动态图
  • 微信网站制作入门网站开发实施方案进度
  • 网站用户界面设计国内网站建设最好公司
  • 运城做网站费用高吗高端模板建站
  • 凡客诚品网站设计合肥网红打卡地
  • 淘宝网站代理怎么做的广西送变电建设公司铁塔厂网站
  • 自媒体网站开发网站的推广方式包括
  • 教育做的比较好的网站有哪些网站的建设及维护
  • dw设计做网站案例建设网站杭州
  • 做网站认证对网站有什么好处广西网站建设开发团队
  • 建一个网站需要哪些知识无锡大型互联网公司
  • 餐饮公司 网站建设做网站一年大概的盈利
  • 做金融怎么进基金公司网站免费行情软件网站游戏
  • 网站推广解释创立一个网站要多少钱
  • 绍兴专业网站建设公司大型网站建设哪家好
  • 天河网站设计响应式视频网站模板
  • 网站制作老了手机网站模板开发
  • 哪家网站建设比较好海拉尔建网站