当前位置：首页 > news >正文

南宁网站建设策划外包更改wordpress后台登录图标

news 2025/12/24 17:01:56

南宁网站建设策划外包,更改wordpress后台登录图标,软件开发行业现状,网页制作与网站建设答案目前#xff0c;本体一直是知识图谱落地过程中的容易受到抨击的点#xff0c;很多非专业用户对图谱的需求#xff0c;其实并不想花费大量的时间去做本体约束#xff0c;而是想直接拿来就用#xff0c;开箱即用#xff0c;以达到搜索与分析等目的。对本体的强专业性门槛本体一直是知识图谱落地过程中的容易受到抨击的点很多非专业用户对图谱的需求其实并不想花费大量的时间去做本体约束而是想直接拿来就用开箱即用以达到搜索与分析等目的。对本体的强专业性门槛直接导致了知识图谱构建平台面临着很实实在在的采购困境。因此关于无本体约束的开放知识图谱构建这个话题就会被提出来例如几年来风靡一时的magi等其使用体验让人耳目一新(技术上很有挑战落地模式上还有很漫长的路)。因此带着开放信息抽取这一问题本文以以OpenIE为代表的开放信息抽取项目技术方案解读供大家参考。问题的提出开放信息抽取是开放知识图谱构建的一个重要组成部分在这方面的工作中OpenIE是一个典型代表。OpenIE是一个由华盛顿大学研发的开放信息抽取系统面向开放文本并提取大量的关系元组(Arg1, Pred, Arg2)而不需要任何特定关系的训练数据例如给定句子McCain fought hard against Obama, but finally lost the electionOpen IE系统可以从中提取出两个元组:McCain, fought against, ObamaMcCain, lost, the election此外该系统还为每一个抽取结果进行了统计例如在系统中输入导致自杀的原因是什么时候指定relation为cause,arugument为suicide可以在左侧直接得到原因及其出现的频次21 answers from 197 sentencesUntreated depression (38)、Depression (mood) (38)、the blast (20)、the explosion (19)、Death (17)、the drugs (13)、the root (12)、Antidepressant (9)、Adderall (5)、OH (4)、Great Depression (2)、Borderline personality disorder (2)、the acne medicine (2)、Idea (2)、Methylphenidate (2)、our understanding (2)、Major depressive disorder (2)、Those letters (2)、the government (2)、Sertraline (2)。从中可以看到未经治疗的抑郁症(Untreated depression)是导致自杀的罪魁祸首。进一步的针对某个特定原因还给出了支撑性的可信来源例如Untreated depression这一结果来源句子 Untreated depression is the number one cause for suicide , but bipolar disorder is a close second。该句子的来源网站 http://www.peteearley.com/2010/03/07/making-a-difference-crisislink-benefit/这也成为前几年火热的magi搜索思想的一个重要来源。OpenIE知识库项目从2007年启动逐年不段更新自发布以来经历了多个版本2004年华盛顿大学发布了第一OpenIE系统-基于模板的knowitall2007年发布OpenIE系统TextRunner2010年发布第二个版本Reverb2014年发布第四个版本OpenIE4.0采用基于语义分析的抽取方法并同时抽取时间和空间信息2016年至今为第五个版本OpenIE5.0支持符合名词性短语、数字和列表等信息的抽取。本文围绕着OpenIE这一项目的几个版本系统进行介绍从中我们可以看到基于规则的方法在信息抽取中的强大作用以及整个系统逐步完善的整个过程希望给大家带来一定的启发。一、OpenIE1.0KnowItAll2004年华盛顿大学发布了第一个openie系统knowitall利用可扩展的本体和少量的通用规则模板种子为预定义类别和关系生成提取模板。1、 KnowItAll的构成该系统包括提取器(Extractor)、搜索引擎接口(Search Engine Interface)、以及概率评估器(Probabilistic Assessment)三个基本组件。其中在提取器中KNOWITALL从一组通用的、独立于领域的模板中为每个类和关系实例制定一套提取规则如经典的Marti Hears上下位抽取模式如上表所示模板 NP1如NPList2 可抽取上下位信息NPList2中每个简单名词短语NP都是NP1的具体实例NP1是一个实体类别。例如给定句子我们提供巴黎、尼斯和蒙特卡洛等城市的旅游可提取出三个类别为城市的实例 “巴黎”、“尼斯”和“蒙特卡洛”2、实例关系模板的生成基于模板对特定的类别进行模板实例化和关键词keywords并添加语法约束例如抽取的NP1、NP2等必须是简单名词短语(一个名词前面有零个或多个修饰词), NPList1、NPList等也必须是简单名词短语集合。对于上述规则如果要识别一个名为country的关系类别则将“country”替换Class1成为country类别的识别规则并将规则中的字母序列作为关键词集合变为countries such as 如下同样的如果在已知元组中两个元素的情况下而试图抽取另一个元素时则可以进一步生成二元规则。例如针对x plays for Seattle Mariners这个二元关系进行提取时将Seattle Mariners绑定到一个SportsTeam的实例以及加入到关键词集合当中3、基于搜索引擎接口的实例扩充为了扩大知识抽取的数据来源KnowItAll针对特定类别提取规则中的关键词自动自动构造查询语句向Google、Alta Vista、Fast等搜索引擎中发出请求进行搜索如以 cities such as为关键词查询可以返回大量包含该关键词的句子集合例如下图以微软必应搜索的返回结果。提取器针对返回的结果使用Brill tagger进行词性标注和名词短语识别依照上面所述的规则进行匹配和规则约束提取。4、基于概率评估器的三元组置信度评估由于抽取出来的结果包含大量的噪声因此需要针对提取的结果进行置信度估计。有意思的是KnowItAll认为假设“Cuba Gooding”是一个演员那么在通常情况下Cuba Gooding starred in 这个短语在网络出现次数会比其他短语更多其中的判别词相当于关系的显式标记词。因此Cuba Gooding starred in 中X starred in 就是一个辨别词组的模式这个模式可以通过预先定义好的抽取规则进行自动生成。概率评估器利用搜索引擎查询判别词的方式将查询返回的数量来作为共现次数在此基础上通过计算提取结果和一组判别词的共现次数或者点间互信息PMI值来作为提取结果成立的一个重要特征选择朴素贝叶斯网络来进行二分类。由于贝叶斯概率是基于观察样本估计出来的需要一个足够大的训练集来估计给定类别下特征出现的概率。因此Knowitall采用了基于Bootstrapping的方法来构造正负样例首先从通用规则模板中为每个关系实例化一组提取规则并通过搜索引擎进行查询统计PMI信息同时从规则的关键词短语和类名中生成一组判别词短语并反复执行如下操作步骤1、为每个关系类别找到200个实例利用通用判别器短语上找到20个PMI较高的种子作为正样本步骤2、在所有通用判别器短语上找到20个PMI较高的种子作为正样本使用这些正样本种子来训练多个判别器步骤3、选择5个最好的判别器并在这5个判别器上找到一组新的高PMI的种子。5知识提取数据的存储在经过模板定义、搜索引擎查询、规则抽取以及贝叶斯分类之后Knowitall可以得到大量的三元组数据并将包括三元组元数据支撑的证据以及置信度在内的数据存储在关系型数据库RDBMS中其中的支撑证据很有意思具备结果的解释性。二、OpenIE1.0TextRunner2007年华盛顿大学发布了TextRunner该系统基于宾夕法尼亚州树库中启发式生成的例子作为训练集使用非词汇化词性和NP短语特征作为特征并使用朴素贝叶斯模型后续采用线性CRF与马尔可夫网络进行训练来抽取知识。1、TEXTRUNNER的构成TEXTRUNNER由自监督学习器(Self-Supervised Learner)、单步抽取器(Single-Pass Extractor)以及基于冗余的评估器(Redundancy-Based Assessor)这三个重要部件构成。2、自监督学习器自监督学习器通过构造训练数据集学习一个贝叶斯分类器来判断给定三元组是否可信。具体地1先对数据集进行语法解析。解析句子中的名词短语并将名词短语作为可能的实体两个名词短语之间的词语作为关系构成三元组候选集合2使用约束来构造正负样本。例如若两个实体之间存在依赖路径并且路径小于一定的值两个实体都不是代词时将该数据作为正样本3构造特征训练分类起。如三元组中的字符个数、停用词个数、头实体左边的词性、尾实体右边的词性等特征并数值化训练贝叶斯分类器3、单步抽取器单步抽取器针对输入一句话进行词性标注和名词短语识别识别名词短语之间的词语作为关系表示使用分类器进行分类判别这个三元组候选是否可信4、冗余评估器冗余的评估器通过启发式的规则对关系短语进行归一化比如去除不必要的修饰词语,如去除was originally developed by 中的副词originally形成was developed by 作为的规范化形式并计算三元组在不同句子中的频次通过设定阈值保留高频词的结果作为最终结果。三、OpenIE2.0Reverb为了弥补TextRunner系统中出现的不连贯问题学习的提取器对是否在关系短语中包含每个词做出了一系列的决定会导致不可理解的关系短语2010年华盛顿大学发布了第二个版本Reverb采用基于词性标注的关系抽取方式。1、Reverb的构成Reverb使用OpenNLP对原始句子进行词性标注和组块识别先后完成关系抽取和论元抽取两个阶段。在关系抽取阶段对句子中的每一个动词找出满足该序列以动词开头并同时满足句法约束和词法约束如果任何一对匹配在句子中相邻或重叠则将它们合并为一个匹配形成关系短语集合论元抽取阶段针对关系短语集合中的每个关系短语在句子中找到离该关系短语最近的名词短语并满足使该名词短语不是相对代词、疑问词(以WH开头)活着存在性名词(比如there)。如果能找到这样的名词短语对则作为提取结果返回。2、Reverb的句法约束Reverb提出了基于动词的关系短语抽取模型并同时设计了句法约束和词法约束两个约束条件。句法约束通过定义句法模版(词性模式)来完成例如V verb particle? adv? W (noun|adj|adv|pron|det) P (prep|particle|inf. marker)该词性模式将关系短语限制为简单的动词短语、紧跟在动词短语后面的介词或小品词(与动词构成短语动词的副词或介词)、或者动词短语后接简单的名词短语并以介词或小品词结尾的词语序列。句法约束要求关系短语必须与上述POS标签模式相匹配如果一个动词在一个句子中有多个可能的匹配则选择可能最长的匹配结果如果模式匹配多个相邻序列则将它们合并成一个关系短语。这种细化使模型能够轻松处理包含多个动词的关系短语并且满足短语构成的连续性。四、OpenIE3.0OLLIE与第一个版本TextRunner相比Reverb已经有性能上的提升但它只能处理有限的句子结构用浅层句法处理方法来识别以动词开始以及出现在参数短语之间的关系短语并将关系限制在动词模式的子集上。这种方法只对一个句子进行局部分析忽略了整体的上下文信息所以提取的关系往往不是在句子中被明确真实表述的事实关系。因此2012年发布第三个版本OLLIE试图扩大关系短语的句法范围以覆盖更多的关系表达并使得抽取出来的三元组形式允许有额外的上下文信息(如包括修饰词)。1、OLLIE的构成在实现上如上图所示OLLIE使用一组来自REVERB的高精度种子元组利用bootstraaping的方法来构造一个大型训练集并在此基础上训练并应用抽取模板集合。2、关系模式的获取在抽取模版的构造上OLLIE使用了依存句法分析与词法模版十分不同考虑了词语之间的依存关系使得提取的知识关系进一步明确通过在语料中进行统计并设计相应规则可以取频次较高的模式作为开放模式集合。具体地关系模式的获取经历了收集、标注、检测、泛化等几个步骤步骤1模式实例的收集。对包含三元组的句子进行依存关系分析获得arguments和relation词语的依存路径步骤2关系模式的标注。首先对关系节点进行标注注明关系词语(作为词法限制)和词性(作为词性限制)接着创建关系模式通过将“is”等词归一化成 “be”同时将关系词语替换成为{rel}步骤3关系模式的检测。对关系模式进行句法检测以判定句法模式的成立性例如路径上没有没有槽节点关系词语在arg1和ar2中间等。如果通过检测那么就是一个句法模式可以作为一个模式否则还需要进行语义和句法上的检测才可以作为一个模式步骤4关系模式的泛化。为了使关系模式更具有一般性需要去除路径中的某些非通用成分以提升泛化能力。例如去掉所有关系节点的词义限制、将所有介词边转换为抽象的 {prep ∗} 边、用 {prep} 替换提取模板中的特定介词。如此一来对于给定的三元组(Godse; kill; Gandhi)其依存路径可能是{Godse}↑nsubj↑{kill:postagVBD}↓dobj↓{Gandhi}经过处理后形成泛化模式为{arg1}↑nsubj↑{rel:postagVBD}↓dobj↓{arg2}。3、基于关系模式的抽取在构建好开放模式之后则可以实时提取时先对句子进行依存句法分析并将结果将开放模式与句子的依赖性解析进行匹配并确定参数和关系的基本节点。然后我们扩展这些来传达与提取相关的所有信息例如给定句子“I learned that the 2012 Sasquatch music festival is scheduled for May 25th until May 28th.”经过依存句法分析后可以得到如右图所示的结果通过匹配后命中模式{arg1}↑nsubjpass↑ {rel:postagVBN} ↓{prep ∗}↓ {arg2}先将arg1匹配到festivalrel匹配到scheduled并用prepfor匹配到arg2 25th得到(festival, be scheduled for, 25th)的知识元组信息。为了得到更好的知识信息再利用amod, nn, det等标签进行词语成分的扩充如”25th”变成“May 25th”“ festival”变成“the 2012 Sasquatch music festival”最后得到的三元组变为(the Sasquatch music fes-tival; be scheduled for; May 25th)。五、总结开放域抽取的特点是不限定关系类别、不限定目标文本难点在于如何获取训练语料、如何获取实体关系类别、如何针对不同类型目标文本抽取关系。由华盛顿大学研发的开放信息抽取系统OPENIE从2007年启动到现在已经发布了第五个版本从其中每个版本迭代中所体现出来的算法升级可以看到整个系统不断完善。本文围绕着OpenIE这一项目的几个版本系统进行介绍从中我们可以看到基于规则的方法在信息抽取中的强大作用以及整个系统逐步完善的整个过程希望给大家带来一定的启发。知识可信与来源实证是解决当前知识图谱数据不准确的一个重要解决形式关于这一点我们可以多多思考。参考文献1、https://openie.allenai.org/2、http://reverb.cs.washington.edu3、http://turing.cs.washington.edu/papers/ijcai07.pdf4、https://github.com/knowitall/openie/关于老刘老刘刘焕勇NLP开源爱好者与践行者主页https://liuhuanyong.github.io。就职于360人工智能研究院、曾就职于中国科学院软件研究所。老刘说NLP将定期发布语言资源、工程实践、技术总结等内容欢迎关注。OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。

查看全文

http://www.pierceye.com/news/583938/