北京市建设工程信息网官方网站,电商网站建设文献,大学生简历免费制作网站,做网站,用什么做数据库最好本文转载自公众号#xff1a;知识工场。作者#xff1a;蒋海云#xff0c;复旦大学2016级计算机博士生#xff0c;研究方向为知识图谱与自然语言处理。目前已在 IJCAI#xff0c;AAAI#xff0c;ACL#xff0c;DASFAA等会议上发表文章。IJCAI 2019#xff08;The 28th … 本文转载自公众号知识工场。作者蒋海云复旦大学2016级计算机博士生研究方向为知识图谱与自然语言处理。目前已在 IJCAIAAAIACLDASFAA等会议上发表文章。IJCAI 2019The 28th International Joint Conference on Artificial Intelligence将于当地时间8月10日至8月16日在中国澳门举行。作为人工智能领域最顶级的国际学术会议之一本次会议投稿量有 4752 篇接收率为 17.8%。知识工场实验室发表“关系抽取”相关论文一篇名为《Relation Extraction Using Suervision from Topic Knowledge of Relation Labels》以下为具体内容1、Introduction关系抽取旨在基于文本上下文识别出实体对的语义关系。这些关系通常是预先定义好的。例如给定实体对[ Microsoft, Bill Gates ]和句子“Bill Gates co-founded Microsoft withhis childhood friend Paul Allen”我们希望抽取出关系“ founder ”。传统的方法通常将关系抽取建模为分类问题或者标注问题。在这些方法中不同的关系标签往往被视为不同的 ID。例如在关系分类中每个 ID 代表多分类问题的一个类别 class 。给定一个样本模型将其映射到一个或多个关系 ID 。然而关系标签包含着非常丰富的语义信息这些语义信息被现有的关系抽取模型所忽略。我们认为充分建模关系标签的语义信息并将其作为关系分类的监督信号有望进一步提升关系抽取性能。很显然仅仅靠关系标签这个词组本身很难挖掘出太多的语义信息。因此我们需要引入额外的信息作为关系的背景知识。为了克服这一挑战本文求助于主题模型。对于预定义关系我们通过相应的训练句子集合进行主题建模进而从训练数据中挖掘出关系的主题知识。我们的基本假设是对于每个关系其标注句子集合包含几个潜在主题并且这些主题在语义上与关系是相关的。通过主题建模我们提取前k个带权重的主题词来表示关系的语义。因此关系的主题知识被具体化为带权重的词袋 weighted bag of words WBoW 。不难理解每个主题词都刻画了关系的某些方面而词的权重则刻画了它对关系的重要性。因此一个被标注为该关系的句子应该匹配关系的某些重要方面。图1中给出了一个例子来说明主题知识如何为关系抽取 RE 提供有效的监督信息。对于图左边的四个句子我们希望推断这些句子是否表达了 CEO 关系。对于人类而言我们知道第一句和第二句明确表达了这种关系而第三句则较弱地表达了关系。进一步地第四句则完全没有表达这种关系。通过引入CEO的主题知识我们发现第一句和第二句与 CEO 关系的大多数重要主题词匹配而最后一句与其中任何一个主题词都不匹配。因此主题知识提供的语义信息能有效地支持关系推理。2、Overview我们在图2中给出了应用关系的主题知识的框架流程图。主要步骤如下。步骤1从训练句子中检索关系r的所有句子。步骤2获取 r 的主题知识即通过主题建模从r的标记句子集合中提取前k个加权主题词。步骤3为句子-关系对 s; r 建立深度匹配网络。步骤4基于主题知识通过 Word Mover Distance WMD 计算 s 和 r 之间的语义距离 d ( s,r )。步骤5根据语义距离 d ( s,r ) 计算样本的重要性权重。步骤6基于深度匹配网络和样本重要性权重建立损失函数。3、Framework Sentence-Relation Matching Network整个句子关系匹配网络包括三部分句子学习模块关系学习模块以及句子关系匹配模块。句子学习模块。按照头尾实体的位置我们将句子分成三部分。主要原因有两个。第一在一个句子中表达实体对关系的往往位于实体对之间。因此每部分对于关系推理的贡献是不一样的。第二为了后续注意力机制的处理将句子分块可以显著提升效率。句子学习模块主要采用多头的注意力机制 multi-head self-attention 。此外关系敏感的注意力机制 relation-awareattention 旨在将学习到的句子特征中关系敏感的部分抽取出来从而降低噪声的影响。关系学习模块。关系学习模块的输入是关系的主题词集合。在该模块中我们仍采用自注意力机制。但值得注意的是在输入词袋中我们考虑了每个词的先验权重因此我们希望在自注意力机制学习中将该先验权重考虑进去。这在 weighted multi-head self-attention 中实现。句子关系匹配模块。基于学到的句子表示和关系表示我们采用简单的全连接操作实现匹配建模。其中匹配函数为其中Os 是句子 s 的特征矩阵Or 是关系 r 的特征矩阵。p(y1|s,r,t) 表示句子 s 在表达实体对 t 的关系 r 的概率。4、Experiments我们采用NYT数据集实验结果如下5、Conclusion在本文中我们挖掘关系标签的主题知识来表示其语义信息这为关系抽取提供了有效的监督。 进一步地我们提出了一种新的深度匹配网络。值得注意的是我们的框架适用于许多采用分类的NLP任务这也是我们未来工作的主要研究方向。OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。