有没有做兼职的好网站,在互联网上建设网站可选择的方案有,内蒙古赤峰市信息网官网,设计网站推荐p来源#xff1a;内容摘自《模型思维#xff1a;简化世界的人工智能模型#xff08;全彩#xff09;》模型#xff0c;是客观事物的简化表示#xff01;历史上#xff0c;每一个伟大模型的提出#xff0c;都极大地推动了科学和社会的发展#xff0c;比如历史上出现的3个… 来源内容摘自《模型思维简化世界的人工智能模型全彩》模型是客观事物的简化表示历史上每一个伟大模型的提出都极大地推动了科学和社会的发展比如历史上出现的3个非常有名的模型——万有引力定律、大陆漂移假说、日心说。在人工智能领域也有很多模型用来解决现实生活中遇到的千千万万的问题。我们在现实生活或业务场景中遇到的问题一般可以分为6个通用问题簇权重问题、状态问题、序列问题、表示问题、相似问题和分类问题。那么在遇到特定场景的特定问题时选择什么模型或需要对现有模型做哪些方面的修正和改良就成了大家最感兴趣的话题。我们只要将遇到的问题归为其中某一类就可以寻找相关的模型来解决了。为了快速对问题进行分类帮助大家更好地运用模型本文就带大家来看一下运用人工智能模型的基本步骤首先我们需要参考知识图谱的相关理念对各问题簇进行描述。1. 用知识图谱表示问题熟悉人工智能的读者一定听说过知识图谱其被称为弥补当前深度学习困局的最佳方向。这里希望借助知识图谱的许多术语来研究我们在现实生活中可能遇到的问题。知识图谱的基本理念整体来说知识图谱是一个“知识”的网状结构。知识图谱主要包含3个术语实体Entity、属性Attribute和关系Relation。在知识图谱中我们将需要描述的事物称为实体。实体可以是看得见、摸得着的事物如汽车、房子、电视、风扇也可以是虚拟的事物如软件、程序、算法、方案等。属性是实体的特征一般来说一个实体有多个属性。在不同的应用场景中对同一个实体我们整理的属性集合可能完全不同。例如同样是统计我国的14亿个国民实体集合是相同的教育部门在做业绩报表时可能更关注国民的学历属性财政部门在做业绩报表时可能更关注国民的税收属性统计部门在做业绩报表时可能更关注国民的收入属性。客观世界的各个事物之间有千丝万缕的联系在知识图谱中我们把这种联系用实体之间的关系来抽象表述。关系Relation在知识图谱中一般用一个三元组X,R,Y表示其中X和Y是两个实体R是关系。在实际实现时R可以是布尔型例如夫妻关系可以用是和否的一个布尔型表示也可以是枚举型例如用户对书籍的喜爱程度可以用1星、2星、3星、4星、5星等5个枚举值表示还可以是实型例如用户A和用户B的相似度也可以是其他可能的类型。建立知识图谱的一般步骤对于一个实际的业务场景如果要建立一个知识图谱体系一般会包括如下步骤。确定实体的类型分析业务场景的需求判断为满足业务需求需要多少类实体。确定实体的属性分析实际业务需求判断每一类实体应该有多少个属性分别是哪些属性。确定属性的数据类型这是一个纯技术问题布尔型、整型、实型、字符串等这个比较简单。确定实体间的关系根据业务需求分析实体之间有哪些联系用什么形式表示成关系。为了对实际业务场景中可能遇到的问题进行分类我们可以建立问题的知识图谱。问题知识图谱的建立过程与上述过程类似也要分析问题可以表示为多少类实体每类实体有哪些属性和关系。问题的属性研究使用知识图谱的方法来研究实际业务场景中可能遇到的问题每一个问题即为知识图谱的一个实体。对于每一个实体我们一般关注的属性有前提假设、已有数据、待求数据等。这几个属性的含义分别如下。前提假设现实业务场景的问题一般都有特定的前提假设。在求解问题时我们首先要知道问题有哪些前提假设是否会影响问题的解决效果不同的前提假设会导致问题需要使用不同的模型来求解。已有数据在求解问题时肯定有一些已知数据对于解决问题的模型我们一般把这些已知的数据叫作模型的输入。在分析问题时首先要仔细分析这些已知数据。已知数据不同或数据格式不同可能会需要采用不同的模型来求解。待求数据所谓要解决某一个问题其实就是有某个数据未知需要想方设法求出来。对于模型我们一般把这些待求数据叫作模型的输出。在分析问题时对这些待求数据更要认真分析不同的待求数据需要不同的模型来求解。问题的关系研究前面已经提道使用知识图谱的方法来研究实际业务场景中可能遇到的问题每一个问题即为知识图谱的一个实体对实体与实体之间的关系的研究也非常重要。一般来说实体的关系主要包括如下3种。实体之间的关系要分析实体之间的关系尤其是实体之间的负相关关系。之所以要研究实体之间的关系是为了让问题解决得更彻底避免出现解决一个问题导致其他问题又出来的情况。已知数据之间的关系一般来说每个问题的已知数据不是一个而是多个我们要仔细分析这些已知数据之间的关系。对于同一个问题不同的已知数据关系会导致最终选择不同的求解模型从而有不同的结果。已知数据与待求数据的关系归根到底所谓解决问题就是从已知数据求解未知数据的过程即根据输入找到输出的过程。因此我们在分析问题、建立问题的知识图谱时要认真分析已知数据和待求数据之间的关系。2. 问题分析的示例前面描述的构建问题知识图谱的内容可能有点空洞所以接下来就通过一些实例来理解一下。例如我们考虑如下实际业务场景我们要处理海量的判决文书的数据分析完成后律师输入一个案件的案由希望系统返回与本案件最相似的案件这就是同案同判的实际场景。同案同判对于辩护律师、法官、法律体系科研人员都有重要意义。前提假设分析我们先探讨一下前提假设的分析用实际案例让读者体会一下前提假设分析对问题求解及模型选择的影响。为了分析和处理海量的判决文书第一个要解决的问题是对一篇文章中的各个单词赋予权重。读者可能马上会想到TF-IDF模型这只是一个条件反射因为大家在学习过程中了解最多的模型就是TF-IDF模型。对词语权重赋值最完美最经得住实践检验最有名气的模型就是TF-IDF模型。TF-IDF模型的前提假设是文章中比较重要的词语在当前文档会频繁出现在其他文档中出现的频次却不那么高。在同案同判场景中我们并不关心上诉人和被上诉人是谁只对案件的作案动机、作案手段、作案过程、作案结果等感兴趣。而在实际的判决文书中高频出现的词语一般是上诉人和被上诉人“重要的词语会在当前文档高频出现”这个假设不成立。TF-IDF的前提假设已经失效如果我们还坚持使用传统的TF-IDF模型求解问题则效果势必很差。已有数据的分析已有数据是什么数据是什么格式的有多大规模数据是否已经清洗这些都会影响问题的求解影响模型的选择和运用。还是上述的同案同判的场景如果我们从判决文书网下载了最高人民法院公布的几千万份判决文书语料那么一般的技术路线是将这几千万份判决文书进行分类处理也可能是聚类用同一个类的质心来表示该类别。律师输入某个案由后我们实际要做的是将该案由分到某个或某些类中因此这是一个分类模型。如果没有海量的判决文书语料那么上述分类方法就不可行。我们可能需要整理法律文书语料的知识图谱。在建立好知识图谱后对于律师输入的某个案由系统要做的工作是将该案由与知识图谱中的实体做相似度计算返回相似度最大的实体信息。这需要使用相似模型。模型用到的特征可能包括作案性质、作案手段等内容这些内容可能是文本形式也可能是格式化好的数据库形式。待求数据的分析待求数据的变化会影响产品的形式也会对模型的选择造成影响。还以上述同案同判的场景为例如果已有数据已经确定就是有几千万的判决文书数据同案同判可能至少有两种不同形式的待求数据输出数据。第一种形式是使用最多的输入一个案由系统返回与该案由最相似的若干判决文书结果。第二种形式更复杂输入一个案由系统返回最佳的判决结果。两种待求数据完全不同需要使用的模型集合也会完全不同。对于第一种待求数据一般会采用向量空间模型来表示文本使用余弦相似度或加权余弦相似度模型来计算相似度然后返回相似度最高的若干结果即可。对于第二种待求数据向量空间模型明显失效。在向量空间模型中非常相似的两个文书对于律师来说可能差之毫厘谬以千里。例如如下两个判决结果在向量空间模型中相似的可能接近或等于1但是在律师眼里这两个判决结果简直是天壤之别。我们可能需要类似LSA等语义模型需要知识图谱等其他表示模型。A法院最终判决被告人赔偿受害者100万元人民币判处有期徒刑6.0个月。B法院最终判决被告人赔偿受害者1000万元人民币判处有期徒刑60个月。关系分析在分析问题时还需要分析已有数据与待求数据之间的关系。数据之间的关系不同求解模型可能也会不同。例如《模型思维》一书在第2篇介绍了3种权重计算模型TF-IDF模型、线性回归模型和PageRank模型。假设场景是分析中国的名人排名一个是要排出中国的“Top 500 富豪榜”一个是要排出中国的“Top 500权威专家榜”一个是要排出中国的“Top 500 影响力人物榜”。计算富豪榜时的已有数据是各人的收入、股票、基金、债券、房产等计算权威专家榜时的已有数据是各人的毕业学校、学历、论文、专利、业绩等计算影响力人物榜是各人的人脉关系。但是计算富豪榜时我们会使用TF-IDF模型来做适度调整计算权威专家榜时我们会使用线性回归模型来做适度调整计算影响力人物榜时我们会使用PageRank模型来做适度调整。计算富豪榜时需要考虑收入、股票、基金、债券、房产等多个维度计算权威专家榜时需要考虑各人的毕业学校、学历、论文、专利、业绩等多个维度为什么这些维度这么相似却会使用不同的模型呢这就需要我们认真分析各维度之间的差异。收入、股票、基金、债券、房产之间是可以有统一量纲的即美元、欧元或人民币而毕业学校、学历、论文、专利、业绩等是没有统一量纲的必须使用回归模型。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”