云做网站,php做网站需要学的东西,qml 网站开发,十大最佳摄影网站论文笔记整理#xff1a;叶群#xff0c;浙江大学计算机学院#xff0c;知识图谱、NLP方向。会议#xff1a;ESWC 2020链接#xff1a;https://suchanek.name/work/publications/eswc-2020-yago.pdfIntroductionYAGO是世界上最大的链接数据库之一#xff0c;由德国马普研… 论文笔记整理叶群浙江大学计算机学院知识图谱、NLP方向。会议ESWC 2020链接https://suchanek.name/work/publications/eswc-2020-yago.pdfIntroductionYAGO是世界上最大的链接数据库之一由德国马普研究所发布。在本篇论文中作者发布了最新版本的YAGO 4包含约20亿三元组和6400万实体融合了schema.org规范的分类体系和Wikidata丰富的实例数据。Wikidata被认为是世界上最大的知识库之一包括了超过7000万实体。与此同时Wikidata社区对自己的定位是信息的集合而不是我们传统意义上的“知识”。Wikidata没有严格的语义约束且存在一些不同来源的自相矛盾的描述。对于下游应用来说Wikidata的分类体系过于复杂和令人费解经典的推理机无法在Wikidata知识库上进行推理因为其本身存在很多不一致性。举个例子阐述Wikidata的分类体系存在的问题实体“布达拉宫”是“touristattraction”的一个实例而“tourist attraction”是“geographic object”的子类“geographic object”是“geometric concept”的实例而“geometric concept”是“mathematical concepts”的子类。所以当你在Wikidata搜索“mathematical concepts”返回的结果有张量多边形, … ,以及布达拉宫。在YAGO 4中作者采用schema.org简单且清晰的分类体系来取代Wikidata复杂且费解的分类体系。因此YAGO 4是一个逻辑一致的知识库可以进行基于OWL的推理。DesignYAGO 4的建立是基于5个主要的设计思路在这里依次阐述。1.Concise TaxonomyWikidata拥有一个非常庞大的分类体系其类别层级结构过深且混乱。同时分类体系存在不稳定性任何贡献者都可以在两个类别之间添加或删除“subclassOf”关系即一次编辑就可能导致上百万个实体分类结果不同。另一方面schema.org的分类体系稳定维护良好由W3C Schema.org Community Group维护。但是schema.org的分类体系中缺少一些细粒度的类别和生物化学相关的类别。为了解决这个问题作者手工融入了Bioschemas一个在生命科学领域的分类体系。关于细粒度类别缺失的问题对于top-level的类别作者选取schema.org的类别对于leaf-level的类别即细粒度的类别选取Wikidata中的类别。对于Wikidata中实例数量小于10的类别部分类别的子类以及不符约束的类别进行丢弃。原始的Wikidata中有240万个类别经过清洗保留了10k个类别。2.Legible Entities and RelationsYAGO 4以RDF格式存储。与Wikidata不同采用了可读性更高的方式来进行URI的命名。若实体有相应的维基百科页面以维基百科页面标题作为URI。若无维基百科页面以该实体的英文标签和Wikidata标识符作为URI。若无英文标签即以Wikidata标识符作为URI。3.Well-typed ValuesYAGO 4对于literal也进行了处理使之更为规范化。比如对于日期值转换成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear。4.Semantic ConstraintsYAGO 4采取了一系列的语义限制使得可以在知识库上进行逻辑推理。语义限制利用结构性约束语言SHACL和OWL进行建模。语义限制主要包括以下5类Disjointness类别之间存在互斥性Domainand Range每一个关系都有相应的定义域和值域Functional Constraints对于一个特定的关系和subject只能有一个objectCardinality Constraints即限制object的最大数量。5.Annotations for Temporal ScopeYAGO 4 对于其中的三元组添加了时间信息通过添加schema:startDate和schema:endDate进行限制。Knowledge Base 作者设计了一个系统从Wikidatadump和语义限制自动构建YAGO 4采用Rust语言编写。YAGO 4 有 3 种版本1Full采用了Wikidata中所有数据2Wikipedia包括Wikidata中所有存在维基百科页面的实例3EnglishWikipedia包括Wikidata中所有存在英文维基百科页面的实例。统计情况如下表所示YAGO的网站http://yago-knowledge.org/YAGO 4的源代码https://github.com/yago-naga/yago4YAGO 4的SPARQL Endpointhttp://yago-knowledge.org/sparql/queryYAGO 4的BrowserYAGO 4在其网站的首页提供了图像化的浏览界面其界面如下图所示YAGO 4的应用YAGO之前已经成功地应用在了多个项目中包括问答实体识别语义分析等。YAGO 4知识库可以进行逻辑推理这将为很多新的应用提供可能。作者在YAGO 4上尝试了HermiT推理机证明了其逻辑一致性。Conclusion本文阐述了YAGO的最新版本YAGO 4的特点和建立过程。YAGO 4的优势在于结合了Wikidata海量的知识和schema.org规范化的分类体系且在其上可以进行逻辑推理。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。