当前位置: 首页 > news >正文

机器人软件开发和网站开发免费地方门户网站源码

机器人软件开发和网站开发,免费地方门户网站源码,phpcms旅游网站模板,制作网站的软件叫什么从数据分析角度#xff0c;DM分为两类#xff0c;描述式数据挖掘#xff0c;预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据#xff0c;并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。 DM的分类#xff1a; 描述式DM#… 从数据分析角度DM分为两类描述式数据挖掘预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。 DM的分类 描述式DM以简洁、概要的方式描述数据、提供数据的有趣的一般性质。 用以产生数据的特征化和比较描述 特征化提供给定数据集的简洁汇总(一个数据集)。比较(区分)提供两个或多个数据集的比较描述其中一个为主数据集其他数据集与其进行对比分析。预测式DM分析数据建立模型试图预测新数据集的行为。 一、数据概化与基于汇总的特征化 1. 数据概化 以更一般的(而不是较低的) 抽象层描述数据。将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。 例如把location维度上将地区概化为城市甚至是省份方法 数据立方体(或OLAP)方法面向属性的归纳方法 2. 数据立方体(OLAP)方法 在数据立方体上进行计算和存储结果优点 数据概化的一种有效实现。能计算多种不同的度量值。(count、ave、sum、min、max)概化与特征分析通过一系列的数据立方体操作完成上钻、下钻操作。限制 * 只能为 非数值类型(离散的)维产生的概念分层。 * 非数值类型名义型、序数型(属于离散化的属性)。 * 缺乏智能分析不能自动确定分析中该使用哪些维概化到哪个层次。 3. 面向属性归纳(AOI)(重点) 前提有大量不同的取值可处理连续性数据比数据立方体更加智能基本思想 首先使用DB 收集任务相关的数据。对每个属性的不同值的个数进行概化(属性删除、属性概化)。基本思想 首先使用DB 收集任务相关的数据。对每个属性的不同值的个数进行概化(属性删除、属性概化)。属性删除(重点) 一个属性有许多不同数值且 该属性没有定义概化操作符(没有概念分层)。 一个属性拥有许多不同的数值却没有定义对他的泛化操作。或较高层概念可以用其他属性表示。 eg出生日期birth_date:1995-1-1,出生日期是年龄的更高层次可以将其表现所以可以将birth_date删除。属性概化(重点) 若一个属性有许多不同数值且在该属性上存在概化操作符(有概念分层)则应当选择该概化操作符并逐层进行概化。概化操作符层次性比如birth_day:年月日。 4.特征化(面向属性归纳) 两种方法 属性概化阈值控制(控制属性取值个数) 取值范围[2-8]属性的不同值个数大于属性概化阈值则应当删除或概化。概化层次太高可加大阈值(属性下钻);反之减小阈值(属性上卷)。概化关系阈值控制(控制最后的广义元组数量) 控制最后关系、规则的大小。(最后生成广义元组)设置阈值:[10-30]概化关系中不同元组的个数超过属性概化阈值则概化。概化关系太少可加大阈值(属性下钻);反之减小阈值(属性上卷)。概化到最高层(最底层)也不满足则需要将其删除。 5.例子分析 二、属性相关分析(重点) 在处理数据中包含很多与挖掘任务不相关或弱相关的属性引入属性相关分析。如果某个属性可以很好区分该类与其他类则该属性是任务高度相关的。在处理数据中包含很多与挖掘任务不相关或弱相关的属性引入属性相关分析。如果某个属性可以很好区分该类与其他类则该属性是任务高度相关的。 1. 属性相关分析法基本思想 基本思想给定的数据集计算某种度量用于量化属性与给定的类或概念间的相关性。常用的度量:信息增益、相关系数、GINI索引、不确定性 2.信息增益法(重点) 信息增益法 决策树归纳学习算法(ID3,C4.5)删除信息量较少的属性保留信息量较大的属性。 ID3算法 熵概念为启发函数。     熵越大、携带的信息量越大、越不容易被预测 选择具有最大信息增益的属性作为当前划分节点。基本原理: 根据类别已知的训练数据集构造一颗决策树根据决策树再对类别未知的数据对象进行分类。每一步选择都是选择最大信息增益。决策树每个节点的选择选择信息增益最大的属性为当前节点。本步骤只是求出不确定性 3. 通过熵来进行选择 4.属性相关分析步骤 数据收集建立目标数据集以及对比数据集目标数据集与对比数据集不相交。利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。删除不相关、弱相关的属性。如信息增益度量使用AOI产生概念描述利用更严格的属性概化控制阈值进行属性的归纳。 任务是概念描述使用初始目标数据集。任务是比较概念描述使用初始目标数据集对比数据集。 三、挖掘类比较区分不同的类 比较概念中同一个属性要概化到同一个层次。d—权 qa所包含的Cj中数据行数与qa所涵盖的所有数据行数包括目标数据集及所有对比数据集之比 四、常见的统计度量指标 中心趋势均值、中位数、模(众数) 众数如果每个数值仅出现1次则无众数数据分布四分位数、方差、标准差 四分位数 数值下数据集合的第k个百分位数。中位数第50个百分位数第一个四分位数第25个百分位数第三个百分位数 第75个百分位数中间四分位区间识别孤立点:
http://www.pierceye.com/news/505893/

相关文章:

  • 商城网站建设公司哪家好上海环球金融中心简介
  • 肃宁县做网站价格wordpress获取站点标题
  • 公司做网站效果怎么样推荐网站建设话术
  • 邱县网站建设河北seo网络优化师
  • iis5.1怎么新建网站中国生意网
  • 教你做吃的网站厦门市集美区建设局网站
  • 电子商务网站建设需要青岛网站建设邓巴迪
  • 网站建设考虑的因素建设网站地图
  • 天津塘沽网站建设新网官方网站
  • 做本地团购网站国外产品网站
  • 湖北省两学一做网站国外浏览器app下载
  • 遵义网站建设公司巴彦淖尔市网站制作
  • 后台管理系统网站模板合作网站登录制作
  • 腾讯云网站备案流程seo优化实训总结
  • 那个网站有免费的模板wordpress首页模板文件
  • 阿里云主机可以放几个网站手机上自己设计广告的软件
  • 南通公司企业网站建设淘宝网店制作
  • 长沙网站建设推广太仓网站建设企业网站
  • 加强网站微信信息编辑队伍建设网站设计 北京店
  • 广州网站建设有限公司程序员入门先学什么
  • 资源下载类网站如何做外链北京有几家宽带网络公司
  • 个人网站要有什么网页设计与制作初学者教程
  • 宁波品牌网站建设芗城区建设局网站
  • 仿卢松松博客网站源码购买网站空间多少钱
  • 无锡网站推微信公众号文章里好看的图片在哪个网站做
  • 做网站建设费用预算龙岩市建筑设计院
  • 网站做适配多少钱浙江建设厅特种考试查询
  • 简单的网站更新 关键词优化 关键词互联如何做网
  • 重庆网站seo搜索引擎优化网站qq登录 开发
  • 备案号放网站下面居中物流网站制作目的