玉山县建设局网站,seo是什么意思som,做响应式网站多少钱,企业网站公告怎么做数据处理之数据规约
1. 数据规约概述
数据规约是数据处理中的重要方法#xff0c;旨在让数据处理更简便、高效#xff0c;以满足业务需求。当从数据仓库获取的数据量庞大时#xff0c;直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示#xff0c…数据处理之数据规约
1. 数据规约概述
数据规约是数据处理中的重要方法旨在让数据处理更简便、高效以满足业务需求。当从数据仓库获取的数据量庞大时直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示在减小数据规模的同时尽可能保持原数据的完整性使得在归约后的数据集上进行挖掘能获得与使用原数据集近乎相同的分析结果。
2. 经典数据规约策略
属性规约想办法减少分析时需考虑的变量或属性。常用方法如小波变换它能将复杂数据简化到更小、更简单的空间主成分分析利用降维思想把多个指标压缩成几个重要且互不重复、能抓住大部分原始信息的指标还有挑选属性子集即去除不重要、重复、不相关或冗余的属性维度找到最小属性集合让数据分布与使用所有属性时的分布尽量相似。例如分析顾客是否愿意购买新的流行歌单时可删掉电话号码、住址等无关信息保留顾客分类、年龄、喜好的音乐类型等重要信息。数量规约通过较小的数据集替代原始数据集来简化处理过程。其常用方法分为参数的和非参数的。 参数方法利用如回归模型、对数线性模型等数学模型拟合数据只需存储模型的参数而非整个数据集借助模型的概括能力实现数据压缩和表示。非参数方法不依赖特定数学模型例如使用直方图近似数据分布通过聚类将数据分组并用簇的代表性数据点替代原始数据或者运用抽样技术从原始数据集中选取部分数据作为代表以及数据立方体聚集它通过对数据进行多维度的汇总和聚合来减少数据量并保留关键信息。直方图这是一种利用分箱法近似数据分布的数据规约方法把数据分成不同区间格子格子宽度代表范围大小高度显示该范围内的数据点数量常用于统计数据的可视化便于理解数据分布情况还可根据等宽原则或等平原则来确定区间划分。聚类将数据集的数据对象分组使相似对象归为同一组不相似对象分到不同组分组结果称为簇或群。相似性通常基于距离度量如欧几里得距离、曼哈顿距离等来判定距离越小相似度越高距离越大差异性越大。聚类技术在市场细分、图像处理、社交网络等诸多领域都有重要作用簇的直径和簇心距离是评估聚类质量的关键指标常用的聚类算法包括基于划分如 k means 算法、基于层次、基于密度、基于网格和基于模型的方法等。抽样通过从大型数据集提取小的随机样本子集来代表整个数据集能显著降低处理和分析的计算成本同时保留数据代表性。常见抽样方法有无放回简单随机抽样确保样本独立性和随机性每个数据点只能被选一次、有放回简单随机抽样所选数据点抽样后会放回可多次选择适用于需重复抽样情况、簇抽样适合数据集自然分组情况将数据集划分成簇后随机选簇抽样以及分层抽样适用于数据集有明显分层特征情况将数据集划分为不同层后从各层随机抽取样本。
二、数据处理之数据变换
1. 数据变换的意义
数据变换是数据挖掘过程中的关键环节核心任务是把各种原始数据转化为适合分析和挖掘的格式以提高挖掘的准确性帮助提取更有价值的信息。
2. 常见的数据变换策略
光滑数据犹如去除画布上的杂点般去掉数据中的噪声常用技术包括分箱、回归和聚类等使数据更纯净。数据聚类对数据进行汇总或聚集比如将日销售数据聚合计算出月或年销售总量有助于发现数据模式还能构建数据立方体以从多维度观察数据。属性构造特征构造依据已有的属性构造出新属性并添加到属性集中能加速挖掘过程更快找到有价值信息。数据规范化类似调整乐器音调按比例缩放数据的属性使其落入特定区间避免某些属性对结果产生过大影响常见算法有最小最大规范化将数据最小值拉伸到 0最大值压缩到 1使中间数值线性映射到该区间、零均值规范化将数据均值变成 0并根据标准差缩放确保数据分布均匀消除偏移不受极端值干扰、小数定规范化将所有数据值转换为相对于总和的比例直观体现各部分对整体的贡献。数据离散化把原始值替换为区间标签或概念标签让数据更简洁明了便于理解和分析。数据泛化进行概念分层用高层概念替换低层或原始数据像把街道泛化为城市、国家等许多属性的概念分层可在数据库模式中自动定义。 查看更多