重复建设政务网站,做网站前端需要编程基础吗,免费公司网站模版,教育培训官网本文转载自公众号#xff1a;阿里技术(ali_tech)。 阿里妹导读#xff1a;本文从需求分析和体系化构建的角度出发#xff0c;阐述在电商这一特殊领域的知识图谱构建过程中#xff0c;形成的一整套概念体系#xff0c;还有在此过程中#xff0c;通过算法、工程、产品、… 本文转载自公众号阿里技术(ali_tech)。 阿里妹导读本文从需求分析和体系化构建的角度出发阐述在电商这一特殊领域的知识图谱构建过程中形成的一整套概念体系还有在此过程中通过算法、工程、产品、运营和外包团队投入大量精力通过不断磨合逐渐完善的平台架构和审核流程。作者玉昆、喜阕、远尚、弘朗、子尹、久越1、背景电商认知图谱从17年6月启动以来通过不断从实践到体系化的摸索逐渐形成了一套较为完善的电商数据认知体系。在当前集团不断拓展业务边界的背景下数据互联的需求越来越强烈因为这是跨领域的搜索发现、导购和交互的基础也是真正能让用户“逛起来”要具备的基础条件。但在此之前我们需要对当前的问题做一个分析。 1.1 问题更复杂的数据应用场景不仅是传统的电商现在我们面临的是新零售、多语言、线上线下结合的复杂购物场景所用到的数据也往往超出了以往的文本范围这些数据往往都具有一些特点非结构化互联网的大量数据都是分散在各个来源而且基本是非结构化文本方式来表示目前的类目体系从商品管理角度出发做了长期而大量的工作仍然只是覆盖了大量数据的冰山一角这对于认知真正的用户需求当然是远远不够的。充满噪声不同于传统的文本分析目前集团内的数据大部分是query、title、评论、攻略等这些数据由于用户习惯和商家诉求会存在非常不同于普通文本的语法结构也会由于利益原因存在大量噪声和脏数据这也为真正发现用户需求并结构化带来了极大的困难。多模态、多源随着集团的业务扩展目前的搜索推荐不仅容纳了商品中的文本信息、大量视频、图片也作为内容被使用、如何融合各个来源的数据、如何在关联多模态数据也是数据建设的一个难点。数据分散无法互联从目前的商品体系建设来说各个部门由于业务快速发展往往需要维护自己的一套cpv体系这也是后期做商品管理和搜索的非常关键的一环但是由于应用场景的行业属性不一样比如闲鱼的包配饰由于业务场景高频会是一个需要再细分的类目但在淘系由于交易搜索低频鞋包配饰仅仅是二手闲置下的一个小类目这造成各个部门需要费力地维护在自己的cpv体系上的查询和搜索每次都要重建自己的类目体系重新支持存储查询重新关联商品重新做类目预测等。 如何建设一个比较通用的面向应用的概念体系支持根据业务需求提供查询服务已经迫在眉睫。缺少数据的深度认知数据的深度认知不是认知商品而是认知用户需求之间的关联如何能在用户搜索叶酸”的时候认知到她有备孕需求如何能在用户大量点击烧烤调料和工具的时候认知到他需要进行野外烧烤是目前全集团都缺少的。1.2 需求分析通过如下的背景介绍我们可以明确到为了构建一个全局统一的知识表示和查询框架我们需要如下的关键工作。复杂场景的数据结构化在复杂的场景下我们首先要做的是数据清洗通过频次过滤、规则和统计分析把脏数据去掉然后通过短语挖掘信息抽取等方法把高可用的数据抓取出来进行数据的结构化和层次划分。分散数据的统一表示框架对于管理分散数据我们首先是需要定义一个全局的schema表示和存储方法然后基于schema进行概念数据的融合属性的挖掘和发现在数据关联上有可能要通过各种表示学习的方法来完成。数据深度认知深度认知包含两个方面一个是数据本身的认知一个是数据关联的认知通过行为和商品本身的信息我们可以认知到用户购买商品的意图通过外部数据的输入和摘要我们会得到常识类和商品体系之外的用户需求的关联。1.3 电商认知图谱为了解决上面的问题我们提出了电商认知图谱(E-commerce ConceptNet) 目标是建立电商领域的知识体系通过深度认知用户需求实现电商场景下关联人-货-场的联动赋能业务方和行业。1.3.1 模块划分从整体划分上来说认知图谱分为四块比较重要的工作通过将不同类型的concept(user,scene,virtual category和item)构建为一个异构图来实现用户-场景-商品的关联用户图谱构建 用户图谱除了通用的用户画像信息(年龄、性别、购买力)也会有“老人”“小孩”等人群数据和用户的品类属性偏好数据。1.3.2 场景图谱构建场景可以看做是对用户需求的概念化从现有的query和title中识别出用户需求泛化为一个通用的场景(scene concept)并建立诸如户外烧烤度假穿搭之类的概念是场景图谱的主要工作。通过不断细化的场景需求我们将跨类目和品类代表了一类用户需求的概念抽象为购物场景(sc)。 挖掘了概念相当于我们得到了图上的节点在概念挖掘之上我们又着手建立概念与类目和品类概念和概念之间的关系相当于建立了图上的有向边并计算边的强度具体流程如下 截止目前我们已经产出10w概念和10倍的品类类目关联。1.3.3 品类细化品类细化的来源是由于目前的类目体系会过粗或者过细从构建上包括两个层面 品类聚合比如连衣裙“从认知层面上来说都是一个品类但是由于分行业管理的原因会同时存在女装”男装和童装等不同类目中,这时候就会存在于两个一级类目下所以就需要有一个偏常识的体系来维护对真正连衣裙的认知。品类拆分品类细化是源于我们发现现有的类目体系不足以聚合一类用户需求比如有一个“西藏旅游”的场景在“纱巾”类目下我们需要更多的细节这时候就需要一个叫做“防风纱巾的虚拟类目。 这个过程同样是存在entity/concept extraction和relation classification的当前我们主要针对类目和品类品类上下位建立关系。截止目前我们已经有融合了cpv类目树品类类目关联和外网数据的 pair对68.9w对。1.3.4 商品图谱构建短语挖掘商品图谱端我们需要的是做更多的商品属性认知我们知道完善的cpv体系的前提是phrase的认知针对此我们建立了一个bootstrap框架下的cpv挖掘闭环目标是能够长期有效积累cpv数据扩大query和商品的认知(这也是商品打标的数据来源之一)。举例来说 截止至目前我们已经完成了pv top70的类目审核增加了12W的cpv对term能够全量被识别的query占比已经从30%提升到60%由于目前采用中粒度分词进行挖掘前期分析70%已经是极限后续会在增加phrase mining流程后持续扩大挖掘覆盖)目前数据已经作为类目预测智能交互的基础数据每日产出。商品打标商品打标是我们得以将知识和商品建立关联的关键技术上述三点产生的数据最后都会通过打标建立与item的联系在商品打标完成后我们就可以实现从query到商品的整个语义认知闭环。 预计到三月底我们可以实现第一版的商品打标。2、知识体系在知识构建的过程中我们渐渐发现需要一套全局统一的schema表示体系于是我们调研了wordnet和conceptnet的体系构建历程逐渐形成了自己的一套概念表示体系也就是现有的认知图谱的核心(E-commerce ConceptNet)它的目标是从语义层面去理解电商领域的用户需求并将其概念化(conceptulization)映射到一个语义本体(ontology)通过词汇层面的关系逐渐把本体之间的关系形式化(specific)通过本体之间的层级去表示概念之间的层级通过概念之间的关系去抽象实体类别和关系。 从数据层面上来看我们要描述一个事物(entity)首先需要把它定义为一种类别(instance-of-class)的实例这种类别通常又可以通过一个概念(concept)来表示不同的概念会有自己不同的属性(proeprty)一类概念的具有的属性集合可以称为概念的schema有同一类schema的概念一般会属于不同的领域(domain)领域内有自己的语义本体(ontoloty)通过本体的层次(比如“英国-is-part-of-”英国)我们可以形式化概念的层级和表示。 那么由细到粗的我们定义了一套电商概念体系的表示方法通过不断细化ontology和concept以及他们之间的关系来关联起用户和商品甚至外部的实体。3、技术框架3.1 平台模块总体来说我们是以一个数据服务中台支撑起上面的图引擎再通过阡陌数据管理平台和图灵业务对接平台来实现知识的生产和使用的。3.2 模块细节阡陌数据标注和展示阡陌作为电商知识图谱的基本平台目前集成了所有知识标注和审核流程并且提供了数据查询和可视化后期算法的概念挖掘服务和商品打标服务也会通过阡陌对外提供。数据审核在不断试错过程中我们已经建立了一套比较完善的从初审到终审的流程具体见阡陌审核工具。可视化除了审核平台阡陌还提供了更加具体的数据可视化形式通过良好的交互方便查询知识阡陌可视化3.3 图灵业务全选和投放由于目前我们的知识大部分以卡片形式提供图灵提供了一整套经由云主题透出的业务服务工具概念选择 用户可以通过全选自己的主题进行分渠道投放3.4 图引擎数据存储和查询从存储介质来说我们使用mysql进行灵活标注图数据库进行全量查询odps做持久化数据版本管理。 在数据录入到igraph和biggraph之前会被拆分为点表和边表导入在线通过gremlin进行查询。在图数据库上层我们封装了一个图引擎模块提供不同trigger的场景和商品多路多跳召回功能。目前提供useritem_list和query召回已经在喵小秘使用并且和搜索发现进行联调中可以使用查询接口进行查询和测试。3.5 技术落地云主题(认知图谱) 目前在云主题已经通过知识卡片的形式上线近1w个场景比较首猜商品来说点击和发散性较商品均有大幅提升现在正在做数据发散性的探索。锦囊全量)/底纹(bts) 搜索 穹顶四、后期规划目前认知图谱刚刚发展近一年还有很多工作需要细化后续的工作重点会放在关系挖掘和本体构建通过文本增强图谱和外部数据的关联常识类推理规则的挖掘图推理的符号逻辑表示阿里巴巴搜索事业部NLP知识图谱团队欢迎自然语言处理、数据挖掘、知识图谱方向的优秀人才加入共建阿里电商生态有兴趣的同学可发简历至xique.llxalibaba-inc.com。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。