当前位置: 首页 > news >正文

admin登录网站网店如何营销推广

admin登录网站,网店如何营销推广,服装 营销型网站案例,商丘购物网站开发设计论文笔记整理#xff1a;谭亦鸣#xff0c;东南大学博士生#xff0c;研究方向为跨语言知识图谱问答。来源#xff1a;ACL 2019链接#xff1a;https://128.84.21.199/pdf/1906.02525.pdf动机现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集#xff… 论文笔记整理谭亦鸣东南大学博士生研究方向为跨语言知识图谱问答。来源ACL 2019链接https://128.84.21.199/pdf/1906.02525.pdf 动机现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集对于小语种语言或缺少有标注数据的语言有标注数据的缺少是无法实现高质量问题生成的主要原因。从上述因素出发作者的动机是利用已有大规模标注数据集例如英文问题生成数据集文中描述为 secondary language用于提升小语种文中称为 primary language问题生成模型的性能。 贡献1.  提出了一种利用大规模 secondary language 数据提升 primary language问题生成的模型2.   验证上述模型在印度语与中文问题生成的性能.3. 使用上述模型构建了“文本-问题”形式的印度语问题生成数据集,命名为HiQuAD. 方法基本概述1.    使用无监督模型将单语primary与secondary文本训练编码到一个共享潜在空间中.2.    基于上述编码结果使用大规模 secondary language的问题生成数据以及小规模primary language问题生成数据用于训练一个有监督模型Seq2Seq从而提升primary language的问题生成.图1问题生成模型框架模型概述对照方法基本概述模型框架由左→右编码-解码两个主要层次构成原文描述为两个编码器和两个解码器构成编码层包含两个子层1.    第一层为独立的两个单语编码器分别用于primary(参数下标为 pri)及secondary(参数下标为 sec) language的初编码W_E/W_D分别表示编码/解码的权重参数2.    第二层为融合编码器两种语言共享编码权重参数用于将primary及secondary language的初编码结果融合到共享编码空间中解码层也包含两个子层1.  第三层共享双语权重参数的解码器2.  第四层为分别用于primary及secondary language的单语解码器 方法细节说明1.    过程细节无监督编码过程作者称为无监督预训练算法如下图所示      其中x_p/x_s 分别表示 primary/secondary 对应的句子算法包含三个步骤三个步骤的目的均是通过训练调整模型 W_E/W_D 参数1) 训练编码器用于将带有噪声的 重构为 x_p/x_s共享编码器的特性2) 使用关联的编码-解码器将 x_p/x_s 翻译为3) 利用步骤2中得到的译文结果 参与训练新的翻译模型x_p/x_s 将用于下一步的有监督问题生成算法 问题生成过程算法如下图所示 1) 使用预训练部分得到的权重参数作为问题生成模型的初始参数2) 使用 primary/secondary 数据分别训练对应语言的生成模型通过 secondary 语言的 QG 训练过程对共享编码/解码的权重参数进行微调从而提升 primary 语言的 QG 性能 2.    技术细节1) 本文使用的编码/解码器模型基于 Transformer 模型作者表示相对RNN编码模型在翻译任务中Transformer 模型效果更好不同的是作者将位置信息也加入编码中并参照双向 RNN 的做法从两个序列输入方向分别对文本进行编码处理。2) 去噪编码预训练算法策略采用 ‘UNSUPERVISED NEURALMACHINE TRANSLATION’一文类似的策略如下图所示通过共享编码而后单语解码可以实现对单语文本的重构去噪。与他们不同的是本文作者在共享编码之前先对两种语言单独进行初编码其次是作者使用 Transformer 替换 RNN 编码/解码。3) 在训练问题生成模型时所使用的词表利用BPE方法做子字化subword unit处理使词表的覆盖能力更强减少OOV情况的同时缩小词表规模作者表示直接使用原始词表将出现内存不足的错误 实验数据说明HiQuAD 数据集说明作者构建的HiQuAD包含6555个‘问题-答案’对来自于1334个文本段落原始来源为Dharampal Books为了构建“文本-问题”对对于给定的问题作者首先从段落中选取答案中的首词然后抽取出对应的整句。其他实验使用到的数据集说明Primary印度Secondary英语IITB 印度语单语数据集作者从中抽取了93000个句子作为实验用单语文本用于预训练阶段IITB 印度语-英语平行语料作者从中抽取了100000个句对用于对预训练结果进行微调抽取规则确保每个句子长度大于10 Primary中文Secondary英语DuReader 中文单语数据集规模为8000News Commentary Dataset 中英平行语料包含91000的中英平行语料 SQuAD英文问答数据集包含70484规模的“文本-问题”对 实验方案增量模型说明1.  Transformer直接使用小规模问题生成训练集训练得到生成模型2. Transformerpretraining使用单语数据对编码解码模型进行预训练后将得到权重参数作为问题生成模型的初始参数3.     CLQG使用双语数据预训练/问题生成的 Transformer pretraining4. CLQGparallel预训练之后使用平行语料对权重参数进行进一步微调的CLQG 评价指标说明均是机器翻译相关指标得分越高代表系统性能越好1.    Bleu2.    ROUGE-L3.    METEOR 实验结果在印度语的问题生成实验中CLQGparallel 模型均取得了最优结果但是在中文 QG 实验结果上增量模型的效果并不突出但整体上能够反映出英语语料对于中文问题生成能够带来提高。 分析1. 利用资源丰富的语料跨语言表示学习能够帮助提升小规模语料的表示学习效果但是作者并没有验证在同等情况下该方法对英语大规模语料编码效果的影响2.  HiQuAD 语料的构建过程并不明确从实验上看小语种语言问题的生成依然需要小规模的 QG 标注语料参与训练但是作者对于HiQuAD的构建过程仅描述了获得问题之后文本的获取方式。但问题本身的来源是否使用了小规模的印度语QG标注数据等细节未做说明 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.pierceye.com/news/901594/

相关文章:

  • 万盛经开区建设局官方网站高校校园网站建设的要求
  • 制作企业网站的实训报告防伪码查询网站怎么做的
  • 做网站会很忙吗网站 js 广告代码
  • 没有网站域名备案专业做书画推广的网站
  • 做app网站公司名称有没有做黑市网站
  • apache建设网站做网站页面代码
  • html5 单页网站网络运维从入门到精通
  • 联合建设官方网站银川网站seo
  • jsp网站开发与设计摘要网站开发是什么
  • 公司网站建设论文结束语谷歌建站多少钱
  • 陕西省建设工会网站漳州做网站最便宜
  • asp网站怎么做301定向辽宁网络优化方法
  • 足球网站建设无锡企业网站的建设
  • 网站建设 国风网络学校网站建设新闻
  • 网站集成微信登录ai logo设计网站
  • 给客户做网站kesioncms企业网站蓝色模板
  • 哪个网站可以做视频播放器建筑工程网络计划方法
  • 长沙做网站的有哪些wordpress投稿页面路径怎么写
  • 京东第一次做网站如何做像淘宝一样的网站
  • 南湖网站建设公司怎么用iapp做网站软件
  • 永康网站建设专业公司六安网约车收入怎么样
  • 长沙品质企业建站服务电话随州公司做网站
  • 怎么做期货网站永久免费linux服务器
  • 怎么访问被禁止的网站微信商城网站方案
  • 建设网站需要会什么简单网页代码html
  • 南通网站怎么推广淘客选品网站开发
  • 网站开发的风险与风险管理网站名字
  • 朝阳网站视频拍摄脚本
  • 嘉兴建站模板源码郑州网站开发的公司电话
  • 新乡网站开发的公司电话百度热搜风云榜