网站创意设计方案,seo优化工具软件,男女做羞羞的事网站,深圳代理记账费用本文转载自公众号#xff1a;机器之心。 选自CCKS 2018作者#xff1a;Lingbing Guo、Qingheng Zhang、Weiyi Ge、Wei Hu、Yuzhong Qu机器之心编译参与#xff1a;Panda、刘晓坤2018 年 8 月 14-17 日#xff0c;主题为「知识计算与语言理解」的 2018 全国知识图谱… 本文转载自公众号机器之心。 选自CCKS 2018作者Lingbing Guo、Qingheng Zhang、Weiyi Ge、Wei Hu、Yuzhong Qu机器之心编译参与Panda、刘晓坤2018 年 8 月 14-17 日主题为「知识计算与语言理解」的 2018 全国知识图谱与语义计算大会CCKS 2018在天津成功举办。该会议是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议并致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议。本届会议的最佳英文论文来自南京大学计算机软件新技术国家重点实验室和信息系统工程重点实验室提出了一种用于知识图谱补全的深度序列模型 DSKG。机器之心对该论文进行了摘要介绍感谢最佳论文作者胡伟教授对本文的确认。论文DSKG一种用于知识图谱补全的深度序列模型DSKG: A Deep Sequential Model for Knowledge Graph Completion论文下载https://pan.baidu.com/s/1dItQ-H6bbVq5yhQ7RGJgpQ项目地址https://github.com/nju-websoft/DSKG摘要知识图谱KG补全的目标是填补知识图谱中缺失的事实其中每个事实都可表示成一个形式为 (主体, 关系, 客体) 的三元组。当前的知识图谱补全模型都只能通过三元组中的两个元素比如主体和关系来预测剩余第三个元素。我们在这篇论文中提出了一种新模型其中使用了专门针对知识图谱的多层循环神经网络RNN来将知识图谱中的三元组建模成序列。我们在两个基准数据集和一个更为困难的数据集上进行了传统的实体预测任务实验结果表明我们的方法在许多评测指标上都优于多个之前最佳的知识图谱补全模型。此外因为我们的模型具有序列特性所以只需给定单个实体就能预测整个三元组。我们的实验表明我们的模型在这种三元组预测新任务上表现也较好。1 引言Freebase [2] 和 WordNet [12] 等知识图谱KG通常会使用三元组来记录数以十亿计的真实世界事实这些三元组可写成 (主体, 关系, 客体) 的形式可简写为 (s,r,o)其中 s 和 o 表示实体r 表示 s 和 o 之间的关系。因为当前的知识图谱还远没有包含所有知识所以还需要知识图谱补全任务。之前的模型关注的重点是被称为实体预测也即链接预测[3] 的一般任务其要求基于给定的 (s,r,?) 或 (?,r,o) 来预测对应的 o 或 s从而补全知识图谱中的三元组。图 1a 展示了一个实体预测的抽象模型。输入 s 和 r 首先被投射到某些向量或矩阵上然后再组合这些向量或矩阵得到一个连续表征 v_o进而预测得到 o。图 1用于实体预测的不同模型。白圈和黑圈分别表示输入向量和输出向量。c 表示一个 RNN 单元h 表示一个隐藏状态。DSKG 使用 c1、c2 来处理实体 s使用 c3、c4 来处理关系 r。它们是不同的 RNN 单元。尽管之前的模型已在实体预测上有良好的表现但它们仍然可能不足以补全知识图谱。让我们假设一个模型可以基于给定的关系 r 而有效地补全一个实体 s。如果我们不提供任何关系那么这个模型就无法填补 s因为它无法选择用于完善这个实体的关系。实际上知识图谱的底层数据模型并不允许任何不完整的元组 (s,r) 存在。循环神经网络RNN是一种神经序列模型已经在语言建模和机器翻译 [7,16] 等许多自然语言处理NLP任务上取得了优良的表现。知识图谱中的三元组可被近似地看作是一个长度为 3 的简单句子。比如三元组 (USA, contains, NewYorkCity) 可被变换成句子「USA contains New York City」。这启发了我们使用 RNN 来建模知识图谱。但是我们依然面临着以下难题1三元组不是自然语言。它们是用一种固定的表达方式 (s,r,o) 建模的复杂结构。这样短的序列可能不足以为预测提供足够的上下文信息。与此同时由于路径数量巨大构建有价值的长序列又具有很高的成本且难度很大。2在三元组中关系和实体是以固定顺序出现的两种不同类型的元素。将它们视为同类型元素很可能是不合适的。为了解决上述问题我们提出了 DSKG用于知识图谱的深度序列模型其使用了一种新结构的 RNN并且使用了一种专门针对知识图谱的采样方法来进行训练。为了阐释我们的想法我们设计了一个基本的 RNN 模型作为初始版本如图 1b 所示。这个基本模型将输入 s 和 r 视为同类型元素并循环式地处理它们。c 表示一个 RNN 单元其以之前的隐藏状态和当前元素为输入预测下一个隐藏状态。实体层中的单元处理像是 s 的实体而关系层中的单元处理像是 r 的关系。在这个模型中仅有一个单元按顺序处理所有输入元素所以 s 和 r 是被输入同一个单元 c 来获得它们各自的输出。然后我们使用 h_s 来预测 s 和 h_r 的关系进而预测 s→r 的客体。由于这个基本 RNN 模型仅使用了一个 RNN 单元来处理所有输入序列所以可能无法很好地建模复杂结构。在 NLP 领域研究者通常会堆叠多个 RNN 单元来改善结果。我们借用这一思想构建了一个多层 RNN 模型参见图 1c。但因为实体和关系的特性非常不同这个模型仍然不能准确建模知识图谱中的三元组。如图 1d 所示我们提出的 DSKG 分别使用了多层 RNN 来处理实体和关系。具体而言DSKG 为实体层和关系层使用了不同的 RNN 单元即图中的 c1、c2、c3、c4 全都是各不相同的 RNN 单元。我们相信这种专门针对知识图谱的架构可以在关系形式多样且复杂的情况下表现得更好。因为 DSKG 将预测实体或关系看作是一个分类任务所以我们还提出了一种定制的采样方法可根据当前训练标签的类型采样负例标签。此外DSKG 还有能力预测一个实体的关系这启发了我们使用一种方法来通过关系预测改善实体预测的结果。举个例子在预测 (USA, contains, ?) 时模型可以自动滤除人或电影这样的实体因为这些实体与关系 contains 无关。我们在两个基准数据集上执行了实体预测实验结果表明 DSKG 在许多评测指标上都优于多种之前最佳的模型。更进一步我们在 FB15K-237 [14] 上对 DSKG 进行了评估结果表明 DSKG 优于其它模型。此外我们还设计了一种用于三元组预测的知识图谱补全新实验可作为实体预测的补充。我们的研究表明相比于通用的多层 RNN 模型DSKG 能得到更优的结果。我们已在线公开我们的源代码、数据集和实验结果。3 方法在这一节我们首先将描述 RNN 及多层 RNN。然后我们会提出 DSKG这是一种专为知识图谱设计的多层 RNN 变体。为了有效地训练 DSKG我们还提出了一种基于类型的采样方法。最后我们会介绍一种使用关系预测增强实体预测的方法。3.1 RNN 及多层 RNN我们先来看仅有一个 RNN 单元的基本 RNN 模型。给定一个序列 (x_1,...,x_T) 作为输入基本 RNN 模型的处理方式如下其中 f(·) 是一个激活函数W_h、W_x、b 是参数。h_t 是在时间步骤 t 输出的隐藏状态。多层 RNN 已经在 NLP 领域的复杂分层架构建模上得到了出色的表现 [5]。通过堆叠多个 RNN 单元每个元素的复杂特征都可以被分层地处理见图 1c。我可以将其写成如下形式其中是第 i 个 RNN 单元的参数。是第 i 个 RNN 单元在时间步骤 t 的隐藏状态。因此每个输入元素都会被每个单元按顺序处理这可以看作是将深度神经网络DNN和 RNN 的概念结合到一起。最后我们可以使用最后一个单元的隐藏状态作为时间步骤 t 的输出 h_t。3.2 我们提出的深度序列模型将知识图谱中的三元组看作是序列让我们可以使用 RNN 建模这个知识图谱。但是这些长度为 3 的序列即三元组非常特别每个三元组中的实体和关系都有非常不同特性而且总是互相交错在一起。因此我们认为分别为实体和关系 RNN 构建各自的多层 RNN 能帮助模型学习到更为复杂的结构。根据这一直觉想法我们提出了一种针对知识图谱的多层 RNN其使用了不同的 RNN 单元来分别处理实体和关系。如图 1d 所示使用这一架构整个网络实际上是非循环式的但仍然还是序列式的。我们可以将该结构写成如下形式其中 E 和 R 分别表示实体集和关系集。我们可根据 x_t 的类型选择当前的多层 RNN然后应用公式 (2) 进行计算。// 受限于篇幅有关基于类型的采样方法和使用关系预测增强实体预测的方法在此略过。4 实验4.2 实体预测遵照 [3,14,4] 以及其它许多研究我们使用了 4 个评测指标1排名第一的结果是正确实体的百分比Hits12正确实体在排名前十的结果的百分比Hits103平均倒数排名MRR4平均排名MR。另外要说明我们使用的是过滤后的排名 [3]也就是说我们仅在排名阶段保留当前测试的实体。由于 DSKG 仅需单个实体就能预测关系所以我们报告了所谓的「级联」结果。即给定一个测试元组 (s,r,o)DSKG 首先预测关系 (s,?) 来得到 r 的排名然后再预测 (s,r,?) 中的实体得到 o 的排名。最后将这两个排名相乘得到用于比较的结果即最差排名。表 1 给出了在 FB15K 和 WN18 上的实验结果。因为这两个数据集都包含很多逆向三元组所以仅能学习逆向关系的 InverseModel 也得到了很好的结果。此外我们可以看到 DSKG 在多数指标上都优于其它模型。尤其是 DSKG 在 Hits1 指标上是最佳的这表明 DSKG 能够相当好地准确学习预测实体。即使我们以级联方式评估 DSKG也仍然得到了相当的结果。表 1在两个基准数据集上的实体预测结果。† 表示我们自己使用原研究提供的源代码执行的模型因为原文献没有使用其中某些指标- 表示结果未知因为原文献未报告且我们不能获得/运行源代码表 2 给出了在 FB15K-237 上的实体预测结果。可以看到1所有模型的表现都下降了。具体来看InverseModel 完全无力处理这个数据集这表明所有模型都再也不能通过使用逆向关系直接提升它们的表现了。2DSKG 在所有指标上都显著优于其它模型。DSKG级联还在某些指标上达到了之前最佳的表现比如 Hits10。表 2在 FB15K-237 上的实体预测结果表 3数据集的统计信息4.3 三元组预测DSKG 不仅能预测实体而且还能预测整个三元组。为了评估 DSKG 在直接预测三元组上的表现我们构建了一个具有较大窗口的波束搜索器。另外也还有一些能够提升序列预测结果的复杂方法 [8]。具体而言我们首先要求模型以所有实体为输入来预测关系然后选出前 10 万个 (实体, 关系) 对来构建出 (s,r,?) 这样的不完整三元组。然后该模型以这些不完整三元组为输入预测它们的最后一个实体。最后我们选择前 100 万个三元组作为输出并按降序方式对它们进行排序以便评估。我们使用了精度来评测这些输出的三元组。设为输出的最佳 n 个三元组的集合表示一个知识图谱的所有正确三元组的集合包括测试集、验证集和训练集表示预测得到三元组的集合包括测试集和验证集。则与最佳 n 个输出三元组相关的精度 p_n 的计算方式为其中分别表示中正确的、预测的和错误的三元组数量。由此我们可绘制 p_n 随 n 变化的曲线。我们在三个数据集上执行了实验并将 DSKG 与两个通用模型 G2 和 G4 进行了比较。G2 是一个通用的 2 层 RNN 模型见图 1c。G4 是一个通用的 4 层 RNN 模型因为 DSKG 也使用了 4 个不同的 RNN 单元。它们也都应用了 DSKG 中所用的所有功能采样器、dropout 等。图 2在三个数据集上的三元组预测结果从图 2 上面一行可以看到DSKG 在所有数据集上都显著优于 G2 和 G4尤其是在 FB15K-237 上。另外G4 的表现也比 G2 差。这可能是因为更深度的网络和更多参数会让实体和关系嵌入不适合训练。图 2 下面一行给出了 DSKG 的三元组预测的详细比例。在 FB15K-237 上DSKG 以 0.47 的精度前 10 万正确预测了超过 2000 个三元组。在另外两个更简单的数据集上DSKG 表现更好。在 FB15K 上以 0.87 的精度前 40 万正确预测了 34155 个三元组在 WN18 上以 0.91 的精度前 17 万正确预测了 5037 个三元组。注意DSKG 在 WN18 上的精度最后出现了陡然下降这是因为 WN18 仅有 10000 个三元组供预测而 DSKG 已经输出了所有其所能预测的三元组。5 分析5.1 与其它模型的比较为了分析 DSKG 各个部分的贡献我们开发了一系列仅包含部分功能的子模型NR在训练中没有使用关系损失的 DSKG。构建这个模型的目的是评估最小化关系损失对实体预测的影响。NS非序列我们使用了 4 个全连接层ReLU 作为激活函数来替换 DSKG 中的 RNN并减少了关系层和实体层之间的连接。最后我们添加了一个密集层来组合这两个层的输出。这个模型与 DSKG 仍有一些其它共有特性比如 dropout 和采样器。构建该模型的目的是了解序列特性的影响。NRE没有使用基于关系预测增强实体预测的 DSKG3.4 节。图 3DSKG 以及其它模型在 FB15K-237 上的表现图 3 给出了这些模型以及 G2 和 G4 模型在 FB15K-237 的验证集上的表现。我们可从结果中观察到序列特性是 DSKG 的关键点。对比 DSKG 和 NR 与 NS我们可以发现1尽管 NR 保有序列结构但它的表现仍不及 DSKG因为 NR 没有学习预测关系2NS 没有使用序列结构也没有学习预测关系。因此它是图 3 中结果最差的。针对知识图谱的多层 RNN 架构能显著提升表现。在 FB15K-237 上DSKG 在所有指标上都优于 G2 和 G4即使 DSKG 没有使用关系预测增强也一样。注意在第 4.3 节我们已经表明 DSKG 在三元组预测上优于 G2 和 G4。因此DSKG 中使用的架构建模知识图谱的能力比通用型多层 RNN 模型更好。关系预测增强方法能进一步优化实体预测结果。DSKG 的表现总是优于 NRE即使在 MR 指标上也是如此因为 DSKG 能直接去除很多不正确的实体。5.2 层数的影响表 4在 FB15K-237 上不同层数的 DSKG 的实体预测结果‡ 一行是第 4 节所使用的主要结果5.3 嵌入大小的影响表 5在 FB15K-237 上不同嵌入大小的 DSKG 的实体预测结果 -End-实验室介绍南京大学万维网软件Websoft研究组在瞿裕忠教授的带领下长期从事知识图谱语义网及相关技术的研发研究组成员包括胡伟副教授、程龚副教授以及30余位博士和硕士研究生近期的研究方向主要包括智能问答、知识融合和语义搜索。联系方式胡伟whunju.edu.cn微信号whu1982网站http://ws.nju.edu.cnOpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。