红色网站主题,在线培训平台哪家好,做网站应该问客户什么需求,物流网站建设哪个好当线性回归模型的特征量变多之后#xff0c;会出现不同的特征量#xff0c;然而对于那些同是数值型的特征量为什么要做归一化处理呢#xff1f;
一、为了消除数据特征之间的量纲影响 使得不同指标之间具有可比性。例如#xff0c;分析一个人的身高和体重对健康的影响… 当线性回归模型的特征量变多之后会出现不同的特征量然而对于那些同是数值型的特征量为什么要做归一化处理呢
一、为了消除数据特征之间的量纲影响 使得不同指标之间具有可比性。例如分析一个人的身高和体重对健康的影响如果使用米(m)和于克(kg)作为单位那么身高特征会在 1.6m ~ 1.8m的数值范围内体重特征会在50~ 100kg 的范围内分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果就需要进行特征归一化(Normalization)处理使各指标处于同一个数值量级以便进行分析。
二、为了让模型训练更迅速 归一化后的特征在数值上更接近这可以使得模型训练过程中的梯度下降步长更加稳定同时避免了某些特征因数值过大而在梯度下降过程中占据主导地位。 特征归一化对梯度下降有影响 三、为了使特征间的权重更公平 在一些算法中比如逻辑回归如果不进行归一化那么特征的重要性可能会被特征的尺度所影响。即那些取值范围较大的特征可能会被模型认为是更重要的特征从而导致在计算距离时尺度较大的特征将会导致距离主要由它来决定这可能会掩盖掉其他特征的信息降低模型的预测精度。
四、归一化最常用的两种方法 对数值型特征做归一化处理可以将所有特征都统一到一个大致相同的区间内。
1线性函数归一化Min-Max Scaling 这是最常见的归一化形式也被称为离差标准化是把原始数据线性变换到 [0, 1] 区间。实现对数据的等比缩放。归一化公式如下 其中的X是原始数据Xmax是其中的最大值Xmin是其中的最小值。
2零均值归一化Z-Score Normalization 它会将原始数据规范化为标准正态分布均值为0标准差为1适合于原始数据的分布不满足正太分布的情况。其归一化公式如下 其中的是均值是标准差。经过Z-Score Normalization数据会被映射到一个均值为0标准差为1的分布上。
3两种归一化的对比 这两种归一化方法在不同的场景下有不同的优势
Min-Max Scaling 更适合于特征的最大值和最小值有明确意义且已知的情况下或者是输入数据的上下界很重要时。Z-Score Normalization 对于那些期望符合正态分布的模型或算法更有利同时它不会改变数据的分布形状而是将其调整到标准正态分布的形式这有助于消除由于特征度量单位不同造成的偏差并突出数据的内在结构。