当前位置: 首页 > news >正文

网站定制项目建筑施工平台

网站定制项目,建筑施工平台,网站备案幕布多少钱,网站开发工作室这次我们来说说关于数据预处理中的数据标准化及归一化的问题。主要以理论实例的方式为大家展示。本次实验也将会展示部分数据以及代码#xff0c;有兴趣的小伙伴可以自己动手试试~在本次实例过程中#xff0c;我们使用的数据是#xff1a;2010-2018年间广州市经济与环境的时…这次我们来说说关于数据预处理中的数据标准化及归一化的问题。主要以理论实例的方式为大家展示。本次实验也将会展示部分数据以及代码有兴趣的小伙伴可以自己动手试试~在本次实例过程中我们使用的数据是2010-2018年间广州市经济与环境的时间序列资料数据来源为《广州市统计年鉴》及《国民经济和社会发展统计公报》感兴趣的同学也可利用其它数据进行实例操作。(本次实验的Excel数据附在文后)一、归一化(Normalization)描述将数据映射到指定的范围如把数据映射到01或-1~1的范围之内处理。作用1、数据映射到指定的范围内进行处理更加便捷快速。2、把有量纲表达式变成无量纲表达式便于不同单位或量级的指标能够进行比较和加权。经过归一化后将有量纲的数据集变成纯量还可以达到简化计算的作用。常见做法Min-Max归一化python实现(1)导入数据并删除我们不要的列import numpy as npimport pandas as pddfpd.read_excel(C://Users/Administrator/Desktop/data_py.xlsx,sheet_name广州,encodingutf-8)df.drop(columns时间,axis1,inplaceTrue)df.set_index([[2010,2011,2012,2013,2014,2015,2016,2017,2018]],inplaceTrue)df.drop(columns[第二产业产值占比,第三产业产值占比,一般工业固体废物综合利用率],axis1,inplaceTrue)(2)查看数据可以看到数据前三列特征的数量级明显大于后面的特征很多如果这个时候我们想要利用这个数据表来衡量广州市的发展情况时地区生产总值、公共财政收入、人均生产总值这三项特征就会起到主导作用从而遮盖住其他的特征这样的模型效果是很差的因此我们可以通过归一化来解决这个问题。(3)Min-Max归一化for i in list(df.columns):# 获取各个指标的最大值和最小值Max np.max(df[i])Min np.min(df[i])df[i] (df[i] - Min)/(Max - Min)(4)查看归一化结果二、标准化(Normalization)注在英文翻译中归一化和标准化的翻译是一致的而在实际使用中我们需要根据实际的公式(或用途)去理解~数据标准化方法有多种如直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法对系统的评价结果会产生不同的影响。其中最常用的是Z-Score 标准化。Z-Score 标准化其中为数据均值(mean)为标准差(std)。描述将原数据转换为符合均值为0标准差为1的标准正态分布的新数据。作用1、提升模型的收敛速度(加快梯度下降的求解速度)2、提升模型的精度(消除量级和量纲的影响)3、简化计算(与归一化的简化原理相同)python实现(1)(这里我们重置一下数据表df避免实验的偶然性)from sklearn import preprocessingdfpd.read_excel(C://Users/Administrator/Desktop/data_py.xlsx,sheet_name广州,encodingutf-8)df.drop(columns时间,axis1,inplaceTrue)df.set_index([[2010,2011,2012,2013,2014,2015,2016,2017,2018]],inplaceTrue)df.drop(columns[第二产业产值占比,第三产业产值占比,一般工业固体废物综合利用率],axis1,inplaceTrue)(2)Z-Score 标准化最简便、也是L推荐的方法是用sklearn库里的StandardScaler()。实例化zscore preprocessing.StandardScaler()# zscore标准化zscore zscore.fit_transform(df)查看标准化后的数据df_zscore pd.DataFrame(zscore,indexdf.index,columnsdf.columns)df_zscore使用归一化/标准化会改变数据原来的规律吗归一化/标准化实质是一种线性变换线性变换有很多良好的性质这些性质决定了对数据改变后不会造成“失效”反而能提高数据的表现这些性质是归一化/标准化的前提。比如有一个很重要的性质线性变换不会改变原始数据的数值排序。如果是单纯想实现消除量级和量纲的影响用Min-Max还是用Z-Score1、数据的分布本身就服从正态分布使用Z-Score。2、有离群值的情况使用Z-Score。这里不是说有离群值时使用Z-Score不受影响而是Min-Max对于离群值十分敏感因为离群值的出现会影响数据中max或min值从而使Min-Max的效果很差。相比之下虽然使用Z-Score计算方差和均值的时候仍然会受到离群值的影响但是相比于Min-Max法影响会小一点。当数据出现离群点时用什么方法当数据中有离群点时我们可以使用Z-Score进行标准化但是标准化后的数据并不理想因为异常点的特征往往在标准化后容易失去离群特征此时就可以用RobustScaler 针对离群点做标准化处理。三、Robust标准化(RobustScaler)很多时候我们在机器学习中或是其他模型都会经常见到一个词鲁棒性。也就是Robust的音译。计算机科学中健壮性(英语Robustness)是指一个计算机系统在执行过程中处理错误以及算法在遭遇输入、运算等异常时继续正常运行的能力。 诸如模糊测试之类的形式化方法中必须通过制造错误的或不可预期的输入来验证程序的健壮性。很多商业产品都可用来测试软件系统的健壮性。健壮性也是失效评定分析中的一个方面。关于Robust,是这么描述的This Scaler removes the median(中位数) and scales the data according to the quantile range(四分位距离也就是说排除了outliers).Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念一是模型具有较高的精度或有效性这也是对于机器学习中所有学习模型的基本要求二是对于模型假设出现的较小偏差只能对算法性能产生较小的影响主要是噪声(noise)三是对于模型假设出现的较大偏差不可对算法性能产生“灾难性”的影响。主要是离群点(outlier)在机器学习训练模型时工程师可能会向算法内添加噪声(如对抗训练)以便测试算法的「鲁棒性」。可以将此处的鲁棒性理解述算法对数据变化的容忍度有多高。鲁棒性并不同于稳定性稳定性通常意味着「特性随时间不变化的能力」鲁棒性则常被用来描述可以面对复杂适应系统的能力需要更全面的对系统进行考虑。使用方法(1)和Z-Score一样进行实例化robust preprocessing.RobustScaler()# robust标准化处理df_robust robust.fit_transform(df)(2)查看标准化后的数据df_robust pd.DataFrame(df_robust,indexdf.index,columnsdf.columns)df_robust(在这里我们仅仅是做一个示范并不是说当前这个数据表必须用Robust进行标准化)实验数据表链接https://pan.baidu.com/s/1MOmda_0kDbwRNp9jJ0XOgw​pan.baidu.com提取码5ca2由于时间关系剩下的内容我会在下次更新中一并补充~以上便是的内容感谢大家的细心阅读同时欢迎感兴趣的小伙伴一起讨论、学习想要了解更多内容的可以看我的其他文章同时可以持续关注我的动态~
http://www.pierceye.com/news/805044/

相关文章:

  • 网站搭建平台源码做健身网站开题报告
  • 大芬网站建设樟树网站开发
  • 北京通州个人网站建设哈尔滨建设工程招投标办公室
  • 怎样开个人网站如何做百度免费推广
  • 深圳成品网站超市佛山网站建设机构
  • 江苏 网站建设第一次做网站做后感
  • wordpress翻译公司网站没事网站建设项目规划书
  • 东莞建设年审网站我的世界充钱网站怎么做
  • 太原网站排名系统电子商务市场营销
  • 社区网站开发进度表2018年做网站还能
  • 论企业网站建设的必要性内网网站搭建设
  • 网站建设怎么翻译如何建立自己的网站
  • 2345网址大全热门seo推广排名稳定
  • 网站建设工作有底薪吗360优化大师
  • 门户网站微信服务号建设大型网站建设优化排名
  • 贵州省冶金建设有限公司网站wordpress end_lvl
  • 网站建设的工作职责是什么网站后台显示连接已重置
  • 俱乐部手机网站模板微信公众号个人可以做网站么
  • 简述一个网站开发流程软件下载网站搭建
  • 超级营销型网站模板建湖人才网官网登录
  • 建设网站都需要什么万网二手已备案域名
  • 网站建设运营维护合同快捷建站专家
  • 中山建设网站公司软件工程开发
  • 网站备案logo韩国展厅设计网站
  • 网站建设沧州做网站导航能赚钱吗
  • 自己怎么创建免费网站wordpress使用插件
  • 做一个个人主页的网站怎么做商城小程序模板
  • 网站站内链接怎么做wordpress文章样式插件
  • 网站大全浏览器济南免费网站建设优化
  • 招聘网站入职分析表怎么做网站关键字挖掘