当前位置：首页 > news >正文

网站怎么添加后台wordpress 用户名密码

news 2025/11/22 14:22:22

网站怎么添加后台,wordpress 用户名密码,建网站能上传多少数据,主机屋 WordPress 问题多转载公众号 | DataFunTalk分享嘉宾#xff1a;李渔熵简科技联合创始人编辑整理#xff1a;唐汝佳出品平台#xff1a;DataFunTalk导读#xff1a;本次分享的主题是金融资管领域知识图谱的构建和应用#xff0c;主要介绍如何运用大数据、AI这些技术手段#xff0c;来帮助… 转载公众号 | DataFunTalk 分享嘉宾李渔熵简科技联合创始人编辑整理唐汝佳出品平台DataFunTalk导读本次分享的主题是金融资管领域知识图谱的构建和应用主要介绍如何运用大数据、AI这些技术手段来帮助金融资管客户构建一套面向金融资管领域的知识图谱系统。主要内容包括金融资管行业为什么需要知识图谱系统数据接入多源异构数据采集平台熵简知识图谱系统核心技术熵简知识图谱的典型应用01金融资管行业为什么需要知识图谱系统先简要介绍下熵简科技我们公司成立于2017年是一家为金融机构提供数据智能整体解决方案的金融科技公司。具体情况介绍如下图所示。所以在我们看来为什么金融资管行业需要知识图谱系统1. 投资研究对抗信息不对称和认知不对称我们知道资本市场是一个典型的非完美博弈市场。投资的本质是基于时间维度做价格预测赚取预期差的钱。而这种预期差主要是来源于那么信息的不对称和认知的不对称。其中认知的不对称会导致“他知我不知”信息的不对称会令人无法充分利用显性的信息导致“只知其一不知其二”的现象。现实中我们人脑是有限注意力的再资深的研究员和基金经理也会面临不同程度的信息盲点和认知盲点。因此我们希望构建一套智能化投资研究系统简称智能投研系统其核心价值就是帮助投资者持续的对抗其相较于市场的信息不对称和认知不对称上获取到竞争优势。2. 智能投研流程平台化、工业化、可沉淀什么是智能投研简单来说以海量数据为驱动力通过采集研究标的的生产经营活动等数据利用NLP技术对数据进行智能化处理以形成便于解读的指标并利用机器学习技术对指标进行进一步的建模分析最终形成具有决策参考价值的投研情报。什么是智能在熵简知识图谱中我们认为智能数据数据中台逻辑知识图谱。利用数据中台丰富金融投资数据的多样性帮助投研人员提升竞争优势拓宽数据的使用边界。通过知识图谱承载投研逻辑将数据转化为知识帮助金融机构实现研究框架沉淀和结构化表达。3. 熵简智能投研体系产品组件架构上图中为熵简知识图谱的产品架构设计。我们经过几年的探索构建起一套完整的面向金融投资的数字化体系整个产品矩阵分为数据层、中台层和业务层。数据层的核心任务是数据获取我们打造了一套将传统数据和另类数据相融合的数据生产平台帮助我们的客户以更低的成本触达更加丰富的研究素材。中台层的核心任务是将多源异构数据转变为投资研究直接可以使用的指标数据、决策支持数据。其中我们提炼了三大中台数据中台、知识中台和算法中台。应用层的核心人物是将知识和事实应用于各类资管的投资场景当中比如说模拟组合、合规风控等。02数据接入多源异构数据采集平台1. 数据生产平台的需求和挑战在前面提到过金融竞争的本质来自于信息不对称因此但凡对于投资标的有一定参考价值的数据都需要纳入进来金融投资需要广泛且多样的数据和信息。针对这些需求数据生产平台实现了对海量异构数据源包括研究资讯、宏观经济数据、互联网公开数据等和数据类型的采集和监控。在数据生产平台中最核心的任务是如何构建一个兼容数千种不同的数据源类型、日处理的数据量在TB级别的大数据采集系统。解决这个任务面临三个方面的挑战第一点如何实现异构来源网站的海量数据抓取第二点如何能够以比较低的成本快速拓展新的数据源第三点在上千个数据源的情况下如何保证数据采集的实时性和稳定性。2. 海量数据异构来源的解决方案云原生的采集系统为了解决数据海量和异构来源的问题我们采用了云原生架构构建大数据采集系统。系统以kafka为消息中心采用事件驱动模型构建在高可用的Kubernetes集群之上。在 kubernetes上整个系统由4大功能模块构成分别是用户控制台、数据采集引擎、数据存储服务、监控和日志服务。我们会把数据采集当中所涉及到的底层技术要素全部进行封装用户只需要通过简单的配置就可以完成数据采集的任务大大简化数据采集过程。云原生架构的系统具备微服务化和容器化的特点。微服务化——所有组件和服务互相解耦并且独立运行以支持上千种不同数据源的采集容器化——通过容器编排引擎本身的动态伸缩能力系统可以自动应对TB级别的数据洪峰的冲击。3. 新数据源快速拓展的解决方案AI赋能的智能化网页抽取系统简单来说对于这样一个系统我们只需要给出想要抓取网页网址系统就能够自动识别出该网页哪些字段是标题哪些字段是正文哪些字段是日期而不再需要去翻页也不需要人工的一个页面一个页面去配置。实现原理如上图所示网页布局中每个网页都可以等价为一棵树网页上的文本、图片都是树上各个节点所携带的信息。想要从原始网页上提取核心字段具体分为两步① 将不属于提取内容的节点删掉② 根据各个节点在树的位置将节点中的信息序列化为一维文本。为了将不属于提取内容的节点删掉第一步需要将HTML标签进行数字化表示我们受到谷歌word2vec算法的启示提出了tag embedding算法关键思想是学习tag之间的共现关系来实现tag的分布式表示。优点是可以在大规模数据集上进行无监督训练学习出不同标签之间的语义关系而不依赖于人工的标注从而实现HTML标签在50维空间上的分布式表示并且显著提高后续分类模型的泛化能力显著降低后续的分类模型对于标注数据量的需求。第二步在tag embedding基础上通过三层前馈神经网络的二分类器来判断节点是否应该保留。输入特征是主要包括三大类1.父节点的标签信息parent node vector2.子节点的标签信息child node vector3.当前节点的一个标签信息current node vector、以及当前节点其他的特征文本长度text length current node、超链接个数the number of hyperlink of current node。我们是在10万个标注数据上对模型进行训练数据来自于50多个新闻资讯网站在多个网站上进行的测试表示标记的准确率能够达到97%上正文中抽取的准确率能够达到95%以上。除此之外这个方法还可以推广到其他应用场景比如说网页类型的识别判断当前页面的类型是目录页、广告页、其他页。4. 数据采集层技术架构完善的数据校验和监控系统为了保证系统能够高质量稳定的进行数据采集和监控我们在系统中也构建了一套完备的监控和报警系统当任何一层一旦发生问题就可以向运维人员报警以保证系统的稳定性。03熵简知识图谱系统核心技术1. 知识图谱系统的典型需求2. 知识图谱系统架构3. 知识中台层技术架构核心技术以上列出了知识图谱系统面临的几大核心挑战金融资管场景下的本体设计通用知识图谱以三元组的结构为主只能存放简单知识没办法满足金融领域复杂知识和逻辑的组织需求。所以我们针对金融资管领域的需求设计了专门的本体体系。如何利用AI的技术来辅助实现人机协作的图谱构建我们通过这种人机协作的模式实现高质量知识图谱的持续的生长。投研图谱的知识推理时间维度的动态建模。因为时间的原因今天主要是重点介绍前面两点。4. 熵简知识图谱本体体系前面提到通用知识图谱以三元组结构为主存放的知识比较简单没办法满足金融领域复杂的组织需求。而我们的设计目标是通过层次化概念组合全面精准的表示投资标的满足至少90%以上的金融分析的一个需求。所以我们的本体体系一共分为三层分别是金融实体层、金融概念层和金融事实层。上图为知识图谱本体体系的可视化展示不同颜色代表不同的节点类型包含三大类节点金融实体、金融概念和金融事实。从这张图可以看到通用知识图谱是我们图谱的一个子集在我们的图谱当中除了包含年龄、任职的关系等通用知识图谱中的知识外还包含了许多层次化的金融概念和金融事实。比如对一家公司的投资分析可以从运营能力、盈利能力、品牌知名度、行业驱动因素等多个维度进行。对于一个人物实体除了年龄等基本信息外还包括像财务舆情、私生活舆情相关的知识因为现实中财务舆情、私生活舆情对于该公司的未来走向可能会产生一些重大的影响所以这也是熵简知识图谱中的一个重要信息或者说一个知识的维度。① 本体内知识构建的关键技术知识匹配在构建好本体体系后如何将这些指标数据等与相应的金融概念进行知识匹配。为此我们构建了一个基于语义层次分类的知识匹配模型本质上是一个多层次短文本分类模型它本质上是一个多层次短文本分类模型采用Hierarchy TextCNN和memory block架构相结合兼具强泛化和高精度。目前已经实现了两级的金融概念分类可以将数据的标题与相应的金融概念进行匹配涵盖了三十多个金融类别。但这种方法中类别是固定的所以我们又引入了基于相关性检索的匹配模型将金融概念分类问题等价为搜索问题其对于类别外的金融概念匹配具有更好的泛化能力。基于相关性检索的匹配模型是一个简化的搜索系统分为两个部分实时预测和离线处理。在离线处理部分系统对现有的知识图谱上的各个节点进行属性提取、关键词提取等预处理并在数据库中建立相关的索引。在实时预测部分对于每个新数据通过短文本理解、召回、结果排序的三阶段处理我们可以从数据库中匹配到与当前这条数据在金融概念上最接近的一条或多条数据由此得到相应的金融概念。② 本体内知识构建的关键技术知识抽取经过结构化数据的知识匹配后对于年报、财经新闻等非结构化文本需要进行知识抽取。为此我们首先构建一个句子级别的金融概念识别模型将知识抽取的问题等价为句子级别序列标注问题逐句的对研报内容进行分析。当文本片段很长时我们使用算法中台里的FinBERT构建文本自动摘要模型将识别为同一概念的句子集合总结融合为不超过50字或者30字的短文从而形成金融事实的描述性文本。FinBERT预训练方式这里介绍一下FinBERT工作FinBERT是熵简知识图谱系统算法中台的核心语言模型用我们是用几百万的研报、财经新闻对原生bert进行二次预训练得到的适用于金融领域的bert我们称之为finbert图中右侧为整个finbert的训练框架相对于原生的bert我们主要做了三方面的改进引入金融领域语料包含了30亿的token超过了原生bert的预训练规模。采用100多万篇左右的金融财经类新闻200多万篇各类研报以及从公开渠道收集到的金融类百科词条大概100多万条基于金融词典引入了全词mask代替了原本字级别mask这样可以更好的把金融领域的知识和概念引入到模型当中我们通过权威词典、学术期刊等渠道收集了大约10万词规模的金融领域专门词汇。加入了一些语义级别的监督任务比如说行业分类、机构、人物实体提取等另外为了提高整体的效率我们在训练过程中引入了混合精度的运算。它可以至少降低一半的模型对显存的占用同时还能够提高模型的训练速度大概能够提高三倍。知识抽取具体介绍这里介绍如何从表格中抽取知识。比如说从研报的表格中抽取知识平常有看研报习惯的同学知道很多研报的第一页会有一张盈利预测表表格会直接列出这家研究机构对于公司未来几年的业绩预测所以这个表格的数据是很值得我们把它提取出来、并且匹配到相应的知识图谱的节点上的。自动提取表格分为以下两步针对研报表格提取这个场景熵简科技自研了一套PDF图表提取工具利用目标检测OCR识别PDF、表格解析等各类的技术从研报的表格当中把数据提取成结构化数据。对于结构化数据利用前面提到的分层次的语义分类模型以及基于相关性搜索的匹配技术把抽取出来的知识关联到相应的图谱的节点上。③ 本体内知识构建的关键技术实体链接实体链接的核心目标是将前一步知识匹配和知识抽取阶段得到的知识链接到知识库相对应的实体上。上图左边展示了实体链接的整套流程一共包含5个步骤分别是命名实体识别实体库/知识图谱实体联合召回以及实体消歧和基于上下文匹配的实体排序以及最终的实体判决步骤。a. 命名实体阶段我们采用了改进Transformer网络crf模型进行人物和公司实体的提取相对于传统的 transformer结构我们这个地方主要是有三方面的改进在输入层同时引入了字向量和bigram向量它可以显著的提高网络的编码能力引入了前面提到的finbert做一些蒸馏学习可以一定程度提高现有轻量级网络的提取能力。为了进一步提高整体的实体召回率收集外部实体并结合知识图谱上的现有实体构建了一个庞大的实体库涵盖了A股、港股、中概股以及600多万家公司的一个实体的数据再通过AC自动机进行直接的匹配召回。结合这两种方式我们可以实现一个F1值超过0.95的、精确度比较高的实体提取过程。b.采用基于FinBERT的孪生网络对进行实体消歧和实体排序最终根据排序分数来确定知识片段中的实体在知识图谱中的位置。FinBERT分别对于知识图谱中的候选实体与知识片段中的实体进行编码最终在隐空间进行相关性分析获取其匹配分数。④ 本体内知识构建的关键技术知识融合知识融合的目的是将匹配到知识图谱上同一实体、同一属性的金融事实但来源不同、时效不同、质量不同的多条知识进行融合剔除掉冗余的信息保持图谱知识的准确、精炼。对于同一个节点的信息我们会按照时效性、权威性、丰富度、观点冲突这四个维度进行融合把多余、错误的信息去除掉突出相对价值量最大的信息。对于时效性我们根据金融事实的时问戳以及消息类型来判断知识优先级一般而言越近的知识权重越高。对于权威性不同来源的金融事实具备不同的可信度对于研报来源可根据券商评级来给予不同的权重。比如说从人民日报提取的知识一定比自媒体信息的权威性更高。在一些情况下也要综合考虑时效性和权威性比如说对于GDP国家统计局给出的数据即使显著早于某些媒体上公布的数据但我们也依然以国家统计局的数据为准。04熵简知识图谱的典型应用最后一部分介绍一个下游场景的应用智能投研助手。上图举例了5G行业知识图谱的构建和应用案例图中可以看到5G图谱包含了二级市场的行情数据等也包括一些非结构化的5G舆情数据。在这个基础上结合前面提到的整套构建框架我们就可以得到整个5G行业知识图谱。今天的分享就到这里谢谢大家。分享嘉宾 OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。

查看全文

http://www.pierceye.com/news/296921/