做网站菏泽,网站视频播放器用什么做的,哈尔滨网站备案,wordpress屏蔽谷歌蜘蛛文 | 花小花PosyHello, 大家好#xff0c;我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢#xff1f;因为该工作提出了一个知识的格式转换器#xff0c;用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说#xff0c;给模型一打句子#xff0c… 文 | 花小花PosyHello, 大家好我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢因为该工作提出了一个知识的格式转换器用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说给模型一打句子它能够将其转换为一个图。图中的节点是句子中的关键信息边表示不同节点的关系。反过来给模型一个图它能将其格式化为流畅的自然语言。举个例子就是实现下面句子和图之间的格式转换The real-world information is often naturally organized as graphs (e.g., world wide web, social networks) where knowledge is represented not only by the data content of each node, but also by the manner these nodes connect to each other.重点是因为本文还想以 无监督 的方式实现Text和KG之间的转换。好家伙啊不过看起来还挺难的????。既需要做命名实体识别又需要做关系识别、关系抽取还是无监督的。不过如果真的有模型能够实现的话知识图谱的构建不就是小菜一碟了嘛。让我们一起来看看今天这篇文章是否能够满足我们的期待呢论文题目DualTKB: A Dual Learning Bridge between Text and Knowledge Base论文链接https://arxiv.org/pdf/2010.14660.pdfThe truth is in the details。刚刚给大家描述了一下理想场景。不过现实和理想还是有些不同的接下来要开始暴露真相了为了使研究有可能进行本文简化了研究问题不是直接完成一打句子和一个图之间的转换而是将问题分解为一个句子和一条路径之间的转换。注路径在本文的定义是一个三元组比如上图中的(graph, made of, edges)。知识格式转换的核心格式化的核心是格式化将不同源格式的知识转换为同一种标准格式。格式生成将格式化后的知识增加目标格式信息并生成目标格式知识。为实现上述两个目标本文提出的DualTKB模型其框架是1个Encoder2个Decoders。Encoder将文本和路径编码到相同的空间以实现格式化过程。因为假设文本和路径表达同一条知识所以编码到相同的空间能更好地训练Encoder。DecoderA和DecoderB分别负责文本(A)和路径(B)的生成即负责不同格式知识的生成。直观的图表达如下眼尖的同学可能已经发现当Encoder的输入和DecoderA的是输出都是文本时或Encoder的输入和DecoderB的输出都是路径时模型就是一个auto-encoder。相应的重构损失如果已知文本和路径的对齐那么训练便简单许多。但当该信息未知的时候有什么应对策略呢这就是本文所关心的问题。因此本文的真正的研究问题是如何以无监督的方式实现一个句子文本和一条路径之间的转换即,在没有文本和路径对齐的标签信息的情况下如何实现转换剧透答案Translation Back Translation (BT)。熟悉机翻的朋友们看了答案可能会觉得不过如此而已????。但能够旧瓶装新酒将老方法应用到新问题上换角度看问题还是很有意思的。现在假设将文本看做中文路径看作英语那么文本和路径之间的转换不就类似于中文和英语之间的翻译嘛。比如我们想将中文翻译成英语但是没有对齐语料咋办呢一个方法是可以先将中文翻译为英文再将翻译后的英语重新翻译回中文通过对比原始中文和回译的中文来间接指导模型训练。本文文本和路径之间的翻译采用了类似的方法。文中模型的整体框架图如下整个模型包括Translation和Back Translation两轮。在BT轮的损失函数在完全没有监督的情况下模型使用 进行训练。眼尖的同学可能再次发现整体框架图中间部分还有一个那是啥其实本文还隐藏了一个研究问题如果能够给模型提供一部分弱监督能不能提升模型性能即当有一部分文本和路径的对齐模糊对齐语料时会给模型带来多大的提升为了实现这一目标文中使用模糊匹配构建了一个文本-路径的对齐语料用其监督文本和路径的相互转换。所以当有一部分监督时损失函数变为其中的定义如下读到这里大家可能发现这篇文章涉及的任务比较丰富包括(1)文本到文本的生成 (2)路径到路径的生成 (3)文本到路径的生成 (4)路径到文本的生成 (5)文本到路径到文本 (6)路径到文本到路径。换句话说DualTKB支持不同格式知识的输入和输出。看看下面的图就明白啦~在实际操作过程中文本到文本和路径到路径的生成任务中Encoder的输入都被MASK掉一部分。文本到文本的生成大家很熟悉了这里有意思的是路径到路径的任务。现在任务变成MASK路径的一部分头实体/尾实体作为模型输入模型输出是一条完整的路径头实体关系尾实体)。举个例子输入/mask路径[SEP] yeast [SEP] is a [SEP]输出(yeast, is a, ingredient in bread)哎呦这不是知识图谱补全里面的链接预测嘛~ 其实本文的一大卖点就在于统一了知识图谱补全和文本生成任务的学习使得学习到的模型既可以做文本生成又可以做知识图谱补全还可以实现文本和路径之间的转换。模型部分到这里就差不多啦下面我们一起看看实验部分吧。实验设置数据本文的实验选取了常识领域的文本数据OMCS和常识知识图谱ConceptNet(CN600K)。因为CN600K中的部分三元组是从OMCS中抽取得来所以部分文本和路径所表达的知识是相同的。对于弱监督数据文中使用Fuzzy Matching的方式对齐文本和路径。需要注意的是因为对齐的数据是基于路径和文本之间的相似度进行选择的所以对齐的数据是有噪声的。模型框架文中选择了GRU,BERT,Transformer三种分别作为Encoder和Decoder。剔除掉无效组合比如BERT只能作为Encoder以及性能不好的组合最后选择了3种模型即GRU-GRU, BERT-GRU, Trans-Trans。评价指标文中同时涉及文本生成任务和知识图谱补全任务因此在评价指标方面作者也兼顾了两方面。生成任务采用的指标有BLEU2BLEU3RougeLF1 BERT-score。知识图谱补全的指标有常见的MRR和HITSN。常用指标的对比对象都是预测或生成的单个路径和原始的单个路径对比文中为了将一打句子生成的图路径拼成的图与原始图作为整体对比提出使用一个新的指标GED图编辑距离来计算从新图到原始图所需要的距离距离越小说明两个图越相似。因为同时设计生成和知识图谱补全用不同的指标来选择最后的测试模型得出的结论也会不同因此作者提供了两种选择基于于Best MRR选择模型和基于Best BLEU2选择模型。接下来我们一起看看模型的实验结果如何吧。实验结果1. 文本和路径格式互转的性能如何文本到文本(AA)任务在各项指标上都表现良好同时也看出不同模型的性能的差距也是很大的。但文本到路径到文本(ABA)任务的表现则相对差许多说明间接路径(BA)到文本的跨模态的知识迁移能力仍然需要提升。那如果是路径直接到文本(BA)呢对比ABA和BA的结果可以看出ABA的整体效果是要优于BA说明直接将路径转换为文本的效果其实还有待提升的。2. 知识图谱补全任务的表现如何上表中报告了两种模型选择的方式蓝框的模型是基于Best MRR选择的红框模型是基于Best BLEU2选择的明显蓝框中的模型效果更好。此处有趣的是GRU-GRU是从头开始训练的BERT-GRU中BERT是finetune的但前者的效果却更好。看来BERT的预训练并没有给知识图谱补全任务带来明显增益。不过使用生成指标选择模型时BERT-GRU却表现更好。此处无法得出结论哪个模型是最好的不同的框架选择、不同的选择指标、不同的监督比例) 导致的结论都不相同。但可以得出结论的是DualTKB训练的模型的整体性能是相对稳定的并且可以找到若干模型的性能比之前模型更好。3. 加多少弱监督的数据合适文中多处强调说加一点点点weak supervison就可以使得模型性能提升很多。那么一点点是多少呢图中对比了监督比例从0增加到1 (x轴的过程中 MRR和BLEU2y轴的变化。从0增加到0.2的过程中三个模型的MRR都获得了明显的提升。当比例从0.2继续增加时不同模型的变化趋势却不相同。更有趣的是当比例增加到1时模型性能却低于比例等于0.5时 这可能也是为啥作者一直强调加一点点数据就够了意思就是不要加多了加多了不行O(∩_∩)O~。针对这一现象文中的解释是因为弱监督数据中路径和文本的对齐不是exact match所以加多了监督反倒将噪声引入了。噪声可以理解为不是所有对齐的句子和路径都表达的相同的知识所以监督数据过多时其实是引入了更多的错误信息。4. 生成的数据长啥样上图是作者将一打句子和其生成的路径组成得到的图从上图可以看出实验采用的文本数据结构是相对简单的句子比较短并且有比较明显的模板现象但是文本和段落之间的迁移仍然效果有待提升。试想如果在真实的长句或者段落文本中训练只会更加困难。小结本文将从文本中构建知识图谱和从知识图谱生成文本看成对偶问题提出了DualTKB模型旨在学习文本和路径之间知识的迁移。换句话说提出了一个文本和KG格式转换器。本文工作涉及了一系列的任务包括自然语言生成三元组抽取知识图谱补全跨模态的知识迁。本文提出的框架理论上是有通用性的虽然理想和现实还是有一些差距但本文的工作算是往前迈出了一步。期待下一步更深入工作~萌屋作者花小花Posy目前在墨尔本大学NLP组读Ph.D.主要感兴趣方向包括常识问答知识图谱低资源知识迁移。期待有生之年可见证机器真正理解常识的时刻! 知乎ID花小花Posy作品推荐1.我拿乐谱训了个语言模型2.一句话超短摘要速览752篇EMNLP论文3.Facebook提出生成式实体链接、文档检索大幅刷新SOTA后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集