住房各城乡建设网站,湖州网站建设方案,深圳做商城网站,电商网站建设实验原理笔记整理#xff1a;邹铭辉#xff0c;天津大学硕士#xff0c;研究方向为自然语言处理 链接#xff1a;https://aclanthology.org/2023.acl-long.897 动机 文档级事件关系抽取#xff08;Document-level Event-Event Relation Extraction#xff0c;简称DERE#xff09… 笔记整理邹铭辉天津大学硕士研究方向为自然语言处理 链接https://aclanthology.org/2023.acl-long.897 动机 文档级事件关系抽取Document-level Event-Event Relation Extraction简称DERE旨在从文档中提取事件之间的关系。相较于传统的句子级任务SERE它涉及更加复杂的长文本理解。为了更好地进行文档级推理不同于现有方法通过语言工具构建事件图本文工作更关注文档本身的性质并且不依赖于任何先验知识。为了做到这一点作者强调以下关键问题1如何捕捉可能相距较远的事件依赖关系2考虑到SERE和DERE之间的本质差异是否应该将所有事件对同等对待为了解决这些问题作者提出了一种新颖的DERE模型该模型学习稀疏的事件表示用于区分句内和句间推理即SENDIRSparse EveNt representations for Discriminating Intra- and inter-sentential Reasoning。其基本思想是通过假设同一句子中或跨越多个句子的事件对具有不同的信息密度来区分它们1文档中的低密度暗示着对不相关信息的稀疏注意。本文模型的模块1设计了各种类型的注意力机制来学习事件表示以捕捉远距离依赖关系。2句子中的高密度使得SERE相对较容易。本文模型的模块2使用不同的权重来强调句内和句间推理的作用和贡献从而为联合建模引入了支持性事件对。大量实验证明了SENDIR的显著改进以及各种稀疏注意力在文档级表示上的有效性。 亮点 本文亮点主要包括 1考虑到DERE和SERE任务的本质差异提出了区分句内推理和句间推理的想法 2本文提出的SENDIR模型关注文档本身的性质而无需任何的先验知识和外部工具。 模型与方法 SENDIR旨在学习高质量的事件表示以促进句内和句间推理。如图2所示模型框架有四个主要组件1编码器Encoder用于将文档编码为向量2稀疏事件表示学习SER根据文档嵌入进一步学习事件表示3区分句内和句间推理DIR基于每对事件表示进行联合推理以及4分类模块Classification用于进行最终预测。 编码器Encoder 使用BERT和Bi-LSTM对长文档超过512个token进行编码具体来说首先使用BERT对单个句子进行编码得到每个句子中token的表示然后使用Bi-LSTM对所有句子的所有token进行编码。公式如下 其中Xi[x1, x2, …, xm]表示第i个包含m个token的句子H[ h1, h2, …, hn]表示所有句子的所有n个token的嵌入。 对于事件ei,p其中i表示第i个事件p表示句子的索引定义其嵌入为ei,p hk如果事件提及的词是xk则该事件在文档中的位置为k。 稀疏事件表示学习SER SER研究了不同类型的注意力机制以捕捉句子之间的长距离依赖关系以获得高质量的文档表示并用于增强事件表示。具体而言SER首先学习事件特定的句子嵌入ci作为局部上下文基于事件嵌入与所在句子的句子嵌入计算点积注意力 基于这些嵌入SER再应用稀疏自注意力机制来跳过不相关的信息以得到全局上下文ci。特别地SER引入了六种不同类型的长距离依赖假设。图2的模型结构图的左下角可视化展示了不同类型的注意力掩码。Global→假设前两个句子中的事件是文档的核心主题并且应该看到所有其他事件Global←假设最后两个句子中的事件是文档的结论主题并且应该看到所有其他事件Random通常用于增加非局部交互的能力本文随机采样20%的矩阵元素为0其他为1Banded假设相关信息仅限于邻居句子距离小于3即每个事件只能看到邻居句子中的事件Narrative假设事件大多是按叙述顺序描述的以便前一个事件可以看到后一个事件Flashback假设事件是按顺序写入的因此后一个事件应该看到前一个事件。 然后根据局部和全局上下文定义事件表示ei为 最后给定一个事件对(ei, ej)定义其表示vi,j为 区分句内和句间推理DIR 上一节定义了基于局部和全局上下文的事件对表示vi,j。在本节中DIR将它们作为句内特征进行处理表明尚未考虑从其他句子中获取事件对以形成推理链。为了进一步获得每对事件的句间特征DIR首先为每对事件选择支持事件对并使用GAU进行信息融合。然后以不同的权重将两种类型的特征组合在一起以区分两种类型的推理。 首先假设只有共享至少一个公共事件的事件对才能对推理链做出贡献而不是使用所有事件对作为支持。基于这一假设可以为给定的一个事件对(ei, ej)构建一个支持事件对集合T1[vi,j, vi,1, …, vN,j]然后使用GAU进行推理得到增强后的事件对表示T2[vi,j, vi,1, …, vN,j]。公式如下 然后需要将两种不同权重的特征组合起来。基本思想是同一句子内的事件对相对容易预测并且有很高的置信度。因此DIR利用句内特征来促进跨不同句子的事件对。为了避免更容易的预测带来的问题如果事件对在同一句子内则给予句内特征更高的权重。相反对于来自不同句子的事件则给予句间特征更高的权重以突出句间推理。最后对于关系(ei, ej)之间的查询事件对表示定义如下 其中β1, β2和β3是超参数本文中分别设置为0.8, 0.2和0p和q表示事件所在句子的索引。 分类模块Classification 给定事件对的最终表示o使用线性函数来预测关系公式如下 实验 本文在两个领域的三个数据集上对模型进行评估。EventStoryLine和Causal-TimeBank是事件因果关系抽取RE数据集而MATRES是事件时间关系抽取数据集。其中EventStoryLine标注了258份文档包含22个主题共有4,316个句子5,334个事件提及7,805个句内事件对以及46,521个句间事件对。Causal-TimeBank (Causal-TB)标注了184份文档包含6,813个事件和7,608个事件对。MATRES标注了275份文档涵盖了四种时间关系即BEFOREAFTEREQUAL和VAGUE。 本文使用精确率P、召回率R和F1分数F1作为评估指标。 表1和表2分别展示了在EventStoryLine、Causal-TB和MATRES上的整体性能。我们可以看到1SENDIR在EventStoryLine和Causal-TB上取得了更好的F1得分并且在MATRES上也有竞争力的结果这证明了模型的有效性和泛化能力。2在MATRES上SENDIR略低于SCS-EERE。因为事件时间关系抽取对事件之间的方向尤为敏感。3在表1中所有模型在句内表现比句间更好。这与本文的论断一致即句内关系抽取更容易。4特别地SENDIR在句内具有更高的精确度。因为区分性推理方案减轻了更困难的跨句子推理的负面影响。5在句间设置中改进主要来自更高的召回率。作者将这归因于增强的远距离建模能力和支持性的查询集——它倾向于从更广泛的上下文和其他事件对中找到关系线索。 为了进一步分析SENDIR本文还进行了消融分析以说明主要模块的有效性。表3展示了消融实验的结果。 为了研究不同的稀疏注意力掩码对SER某个特定任务或模型的准确率的影响本文使用了以下不同的稀疏注意力掩码Narrative、Flashback、Global→、Global←、Random和Banded。从图4中可以得到以下结论1在句内这些稀疏注意力掩码除了Global→外其他的结果都相似。这与之前的结果一致即事件对更多地依赖于局部语境而不是远距离的全局语境。2Random意外地表现良好表明文档中存在大量冗余信息而稀疏掩码矩阵可以减轻噪声的影响。3Narrative取得了最佳性能这反映了人类写作习惯中的语言偏好——总是首先谈论主题。 总结 本文将一种新颖的具有稀疏事件表示的判别推理方法SENDIR用于DERE。该方法可以学习高质量的事件表示并促进文档级理解中的跨句推理。实验结果表明了方法的有效性改善了句间情况而不损害句内事件对。广泛的分析还为稀疏长文本表示学习中的各种语言偏差提供了有趣的见解。SENDIR的局限性包括以下两个方面1它尚未扩展到文档级别的以实体为中心的关系任务。本文工作是以事件为中心的未来的工作将在实体为中心的情况下进行扩展。文档级别的以实体为中心的关系抽取需要考虑实体的多次提及以及同一实体对的不同方向上的不同关系。2它没有引入外部常识知识。知识可以用于丰富事件并提高准确的事件关系抽取。 OpenKG OpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。 点击阅读原文进入 OpenKG 网站。