当前位置: 首页 > news >正文

石家庄网站建设电话咨询邯郸seo优化公司

石家庄网站建设电话咨询,邯郸seo优化公司,学校网站下载,网站建设服务合同要交印花税吗注#xff1a;本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程一、语音识别的基本过程语音识别的输入一般是时域的语音信号#xff0c;数学上用一系列向量表示(length T, dimension d)#xff0c;输出是文本#xff0c;用一系列to…注本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程一、语音识别的基本过程语音识别的输入一般是时域的语音信号数学上用一系列向量表示(length T, dimension d)输出是文本用一系列token表示(length N, V different tokens)一般来说在ASR问题中输入信号的长度T会大于token的长度N二、Token的选择Token可以理解为语音和文字之间的一种桥梁纽带我们听到的语音可以通过AD转化变为数字信号存储进而以矩阵的形式存储于计算机中那日常生活中的文字也需要一种转换被计算机所存储使用ASR问题中目前主流的token有以下几种Phoneme 以声音的基本元素作为Token不同的单词由不同的音素组成通过识别输入语音中存在哪些音素进而组合成识别出的文字这里就存在一个很重要的映射关系表Lexicon所以这种Token的缺点也很明显即需要语言学的知识才可以得到Lexicon而且不同的文献会给出不同的Lexicon2. Grapheme以文字书写的最小单位作为token优点(1)不需要语言学知识是Lexicon free(2)即使遇到了训练过程中没有出现的Token也可以期待一下会有什么样的结果(手动滑稽)缺点(1)使用起来比较有挑战性很多发音相同但对应Token确是不同需要比较强的上下文信息对模型的学习提出了更高的要求此时面对的是一个更加复杂的问题(2)以英文举例有比较大的拼错风险3. Word用词汇作为Token对很多语言来说往往都不太适合因为Token总数量V会非常大英文因为有明确的空格作为区分词的方式V的数量还算可以接受但中文就很难以词作为Token同时以土耳其语举例是可以不断加后缀变成新的词汇的是无法穷举的所以像这样的语言都不适合用word作为Token4. Morpheme以有富有具体含义的最小单位作为token是一个介于word和grapheme之间的token以英文来举例unbreakable → “un” “break” “able”rekillable → “re” “kill” “able”那如何来获取一种语言的Morpheme呢一般有两种途径求助语言学家linguistic统计发现一些模式statistic5. Bytes更硬核的Token是直接选择计算机中的byte很显然吗这种方式的Token是 language independent[ Li, et al., ICASSP’19] Bo Li, Yu Zhang, Tara Sainath, Yonghui Wu, William Chan, Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes, ICASSP 2019最后通过对19年语音领域三大会议(INTERSPEECH’19, ICASSP’19, ASRU’19)100paper的调研统计得出了目前Token的使用趋势Grapheme 41%Phoneme 32%Morpheme 17%Word 10%三、从输出的角度理解ASR问题输入语音直接输出word embeddings输入语音在识别的过程中加入翻译过程直接输出翻译后的结果输入语音在识别的过程中加入意图分类的判断输出意图输入语音在识别的过程中加入关键词检测填充比如一个订票系统关注的是时间和地点四、从输入的角度理解ASR问题(Acoustic Feature)声音处理时有两个基本概念帧长、帧移每一帧的声音数据可以有很多种表示方法举三个例子直接拿时域采样点MFCCFilter bank output3. 因为传统语音信号处理中有帧移这个操作所以每一帧的声音信号其实是有部分重叠的也就是特性是比较接近的这个点可以用来挖掘做模型压缩提高性能4. 声学特征可以分为这么几个层级Waveform-spectrogram-filter bank-MFCC最后同样也对19年语音领域三大会议进行ASR任务中语音特征使用的调研结果如下MFCC应该会越来越淡出人们的视野五、ASR任务需要多少数据量(有文字标注的数据)目前一般会从Librispeech数据集开始960 hoursTimit数据集相当于CV领域的mnist有些小的想法可以在这上面先进行验证看是否workimagenet换算成语音大概是4096 hoursgoogle和facebook在文献中公布的使用语音数据量是1.3w hours但实际上使用的应该是这个数字的10倍-20倍下期预告ASR的具体算法会从seq2seq和HMM两个角度展开主要介绍以下几种Listen, Attend, and Spell (LAS)Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, Yoshua Bengio, Attention-Based Models for Speech Recognition, NIPS, 152. Connectionist Temporal Classification (CTC)Alex Graves, Santiago Fernández, Faustino Gomez, Jurgen Schmidhuber, Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, ICML, 20063. RNN Transducer (RNN-T)Alex Graves, Sequence Transduction with Recurrent Neural Networks, ICML workshop, 20124. Neural TransducerNavdeep Jaitly, Quoc V. Le, Oriol Vinyals, Ilya Sutskever, David Sussillo, Samy Bengio, An Online Sequence-to-Sequence Model Using Partial Conditioning, NIPS, 20165. Monotonic Chunkwise Attention (MoChA)Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Ekaterina Gonina, Navdeep Jaitly, Bo Li, Jan Chorowski, Michiel Bacchiani, State-of-the-art Speech Recognition With Sequence-to-Sequence Models, ICASSP, 2018
http://www.pierceye.com/news/842727/

相关文章:

  • 爱情动做网站推荐个人养老保险金怎么交
  • 淘客怎么做自己的网站演示动画制作免费网站
  • 哪个网站可以搭建网页百度指数官网入口
  • 济南网站开发设计wordpress. 外贸seo
  • 深圳网站建设优化织梦 蝉知 wordpress
  • 荥阳郑州网站建设wordpress oauth2插件
  • 做传媒网站公司简介企业手机网站源码
  • 一级A做爰片安全网站济南营销型网站制作
  • 网站规划说明书范文17素材网官网
  • 青岛做网站大公司免费的行情网站app网页推荐
  • 产品网站建设多少钱哪些网站做推广效果好
  • 网站开发所需技能外链网
  • 广州做家教的网站临沂哪里有做网站
  • 网站建设介绍会发言稿网站开发主页
  • 做推广赚钱的网站如何制作网站策划书
  • 微信公众号商城网站开发能不能不用虚拟主机建设网站
  • iis 网站目录权限vps网站无法通过ip访问
  • 重庆关键词优化咸阳seo培训
  • 专业网站建设分类标准嘉兴网络项目建站公司
  • 做婚礼网站的公司简介网页打不开怎么办页面无法显示
  • 怎么套用模板做网站白嫖二级域名
  • 网站如何进行备案建立平台的步骤
  • 济南免费网站建设网站用什么软件编写
  • 网站如何注册微信公众平台 类型站长要维护网站
  • 美食类网站模板有的网站为什么打不开怎么回事
  • 平面设计网站导航1万元可以注册公司吗
  • 做网站接口多少钱怎样做旅游网站
  • dw制作旅游网站教程天津市区县档案部门网站建设指导意见
  • 关于网站建设的大学pinthis wordpress
  • 济宁 做网站企业做外贸网站常用术语