广州自助网站推广制作,做一个中英文网站的价格,北京p2p网站建设,自学学网页设计笔记整理 | 申时荣#xff0c;东南大学博士来源#xff1a;ACL 2020源码#xff1a;https://github.com/shuaiwa16/ekd.git摘要事件检测#xff08;ED#xff09;是文本自动结构化处理的一项基本任务。由于训练数据的规模小#xff0c;以前的方法在unseen/标记稀疏的触发… 笔记整理 | 申时荣东南大学博士来源ACL 2020源码https://github.com/shuaiwa16/ekd.git摘要事件检测ED是文本自动结构化处理的一项基本任务。由于训练数据的规模小以前的方法在unseen/标记稀疏的触发词上效果较差并且容易过度拟合密集标记的触发词。为了解决该问题我们提出了一种新颖的扩展知识提炼EKD模型以利用外部开放域触发知识来减少对注释中频繁触发词的内在偏见。在基准ACE2005上进行的实验表明我们的模型优于9个强基准对于unseen/标记稀疏的触发词特别有效。介绍事件检测ED的核心就是识别触发词触发词识别是一项艰巨的任务存在长尾问题。以基准ACE2005为例频率小于5的触发词占总数的78.2。长尾问题使监督方法容易过度拟合并且在看不见/稀疏标记的触发器上表现不佳。自动生成更多训练实例似乎是一种解决方案通过自举扩展更多实例并从远程监督方法中扩展更多数据。但是如表1所示这些方法在看不见/稀疏标记的触发词上的性能仍不令人满意。我们认为这些方法要么导致生成语料库的同质性要么受到知识库覆盖率较低的困扰。更重要的是扩展后的数据本身分布不均我们不能期望通过内置的偏差数据来缓解长尾问题。在本文中我们使用“开放域触发知识”的外部知识来增强模型的功能为Unseen/稀疏标记的触发词提供额外的语义支持并改善触发识别。如图1的S1所示即使hearing不适合ACE2005中的任何预定义事件类型开放域触发器知识也可以将hearing和fire识别为事件触发器。借助开放域触发知识我们能够从大规模的未标记语料库中发现unseen/稀疏的触发这将改善触发词识别中的召回率。但是将开放域触发知识整合到ED中具有挑战性通过开放域触发知识识别的触发并不总是与域内标签完全匹配因此不能直接用作触发识别结果。例如在图1的S4中开放域触发知识认为exploded是触发词而在ACE2005的标记规则下intifada是触发词。方法具体来说我们提出了一个扩展知识蒸馏EKD模型以从标记的和未标记的大量语料库中有效地提取开放域触发知识。我们首先使用WordNet的触发知识将轻量级pipeline应用于设备上未标记的句子。该方法不限于特定的领域因此可以保证触发词的覆盖范围。然后考虑到知识增强的数据以及ED注释我们训练了教师模型以提高性能同时对学生模型进行了训练以使用不加任何知识增强的数据来模仿教师的输出这与推论过程中的分布相符。通过向学生模型的输入添加噪声我们进一步促进了模型的泛化。模型的整体流程如图2知识收集开放域触发知识从词义的角度阐述了单词是否触发事件。无论触发器是密集标记的还是看不见/稀疏标记的开放域触发器知识都可以毫无区别地识别它们。例如在图1的S3中尽管被黑客入侵是一个稀有单词并且没有被标记但从单词的意义来看开放域触发知识成功地将被黑客入侵称为触发单词。我们采用一种轻量级pipeline方法称为WordNet触发TFW以收集开放域触发知识Araki and Mitamura2018。具体的1将单词歧义化为WordNet意义2确定意义是否触发事件。最后我们总共获得了733,848个带注释的NYT的句子触发词的总数为265万平均每句3.6个触发词。特征抽取使用预训练的Bert作为文本的特征抽取器。事件预测对token的编码使用全连接分类器输出其对应的事件类型。这部分预测结果与真是标注数据计算损失后进行监督学习。知识蒸馏对于一个输入的句子S使用a的方法标注的到触发词并利用指示符表示位置转换为S同时为了构建困难的学习样本利用触发词位置转换得到S-使用模型同时输入S和S-并执行事件预测在无标注数据上使得两者预测KL散度变小。联合训练最终的训练目标是最小化监督数据集上的正常损失和知识蒸馏部分的散度。主要目的是将wordnet标注的知识被模型学到。实验实验表明在unseen/稀疏触发词上模型表现的更好在整个训练数据的表现上也超过了SOTA OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 网站。