当前位置：首页 > news >正文

宁波企业网站制作哪家好网站验收流程

news 2025/12/21 14:49:25

宁波企业网站制作哪家好,网站验收流程,传奇服务器如何做网站,常州微信网站建设教程论文笔记整理#xff1a;谭亦鸣#xff0c;东南大学博士生#xff0c;研究方向为知识库问答。来源#xff1a;ACL2019本文构建了一个面向复杂推理任务的多选问答数据集 HEAD-QA#xff0c;该数据集中的问题来自一个西班牙的医疗保健专业测试#xff0c;对于具备该方向专业… 论文笔记整理谭亦鸣东南大学博士生研究方向为知识库问答。来源ACL2019 本文构建了一个面向复杂推理任务的多选问答数据集 HEAD-QA该数据集中的问题来自一个西班牙的医疗保健专业测试对于具备该方向专业知识的人也具有一定的挑战性。在原始数据的基础上作者还考虑了“单语-即西班牙语”“跨语言-西班牙语到英语”两种问答场景分别使用信息检索和神经网络技术进行实验对比并得到结论1.HEAD-QA数据集对于当前的方法来说是具有相当难度的问答数据集2.该数据集上的实验结果还远远低于人类回答者的水平这表明其能够作为未来工作的benchmark。表1是该数据集的一个示例动机作者发现对于现有的问答数据集如bAbISQuAD 等如今的问答系统已经能够取得接近于人类级别的答题性能且这些问题往往都能够被“Surface-Level”的知识直接解答。因此多选和推理类型的问题被提出用于自动问答的研究早期问题集一般来自于学校如小学的自然科学等学科以及后来的中学或高中知识。但是这些数据集并没有涉足例如医药等复杂领域因此作者考虑构建这样一个数据集用于问答领域的研究工作。贡献作者认为本文的贡献如下构建了HEAD-QA一个涵盖医疗保健多个子领域知识的高难度多选问答数据集且包含西班牙语和英语两种版本在上述数据集的基础上测试了当前面向开放域和多选的问答模型体现出该数据集的复杂性以及其对于QA研究的实用性。开源数据和模型链接http://aghie.github.io/head-qa/ 方法数据集构建Ministerio de Sanidad, Consumo y Bienestar Social西班牙政府机构每年举行的一个面向公众医疗保健领域的考试作者收集了自2013年起至今的所有试题作为HEAD-QA的原始数据源其中包含了以下子领域医学药理心理学护理生物学和化学。其中2013-14年的多选题包含五个选项其他年份均为四个选项其问题内容主要面向技术同时也包含一定的社会问题其中约14%的问题含有图片作为问题的附加信息由以下形式呈现作者将数据整理为JSON结构并添加说明于文章的附录A中每个问题的构成包含以下几点问题的ID和内容问题对应的图片路径如果有候选答案列表包含答案序号和答案文本问题对应的正确答案ID作者指出虽然本文测试使用的模型均采用无监督或远程监督但他们依然提供了训练集验证集和测试集供其他相关方法的研究使用。对于有监督方法将2013-14数据作为训练集2015作为验证集其他年份数据作为测试集。相关统计信息如表2和表3所示作者表示之所以没有使用随机抽取等常规构建训练集的方法有两个原因每年的问答数据均由专家人工构建且主观上已经避免了考试内容可能存在的明显偏向性随机抽取可能破坏这种人工获得的优质问题分布关于英文版本虽然上述数据集仅有西班牙语官方版本但作者使用Google翻译API将其译制为英文版本从而用于跨语言问答实验。论文随机抽取了60个翻译样本问答对进行评估发现翻译保留了原始问题绝大部分的题意。测试方法本文的测试基于信息检索(IR)模型主要参照 Chen 等人2017作者以Wikipedia作为信息数据源用于所有baseline中。输入问题仅为原始问题文本移除了相关的IDJSON结构信息西班牙语IR单语问答IR方法上沿用 DrQA’s Document RetriverChen et al., 2017该方法能够对query和文本向量之间的关系进行打分。跨语言方法a) Multi-choice DrQA:DrQA对于输入的问题首先返回五个最相关的文本接下来的任务是从中找出包含正确答案的文本范围exact span这一步利用一个神经网络模型Attentive ReaderHermann et al., 2015来实现该模型由SQuAD数据集训练得到。b) Multi-choice BiDAF:该方法与上述DrQA类似但是用BiDAF方法作为文本阅读器只是它的训练方式有所不同除了使用SQuAD训练外之后再利用science question进行继续训练该方法可能选择到不止一个的正确答案当出现这种情况时作者会选择文本长度最长的那个作为最终选项。c) Multi-choiceDGEM and DecompattClark et al., 2018该方法采用DGEM和Decompatt用于IR主要考虑将hypthesis hikqiaik每个hi用作query从而检索到相关的文本句子接着entailment分数用于衡量每个h与句子之间的相关性。实验论文采用准确度作为问答的评价指标同时构建一种得分累计机制参与系统性能评价即答对加3分答错扣1分。以下是实验结果1. 非监督设定下的实验结果2. 监督设定下的实验结果对比人工回答的实验结果如下 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。

查看全文

http://www.pierceye.com/news/532099/