网上图书商城网站设计,湖南建设局网站,做淘宝店铺装修的公司网站,泰安人才信息网官网对于缺失的数据#xff1a;
我们对连续数值的特征做标准化#xff08;standardization#xff09;#xff1a;设该特征在整个数据集上的均值为 μ #xff0c;标准差为 σ 。那么#xff0c;我们可以将该特征的每个值先减去 μ 再除以 σ 得到标准化后的每个特征值。对于…对于缺失的数据
我们对连续数值的特征做标准化standardization设该特征在整个数据集上的均值为 μ 标准差为 σ 。那么我们可以将该特征的每个值先减去 μ 再除以 σ 得到标准化后的每个特征值。对于缺失的特征值我们将其替换成该特征的均值。
numeric_features all_features.dtypes[all_features.dtypes ! object].index
all_features[numeric_features] all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std()))
# 标准化后每个特征的均值变为0所以可以直接用0来替换缺失值
all_features[numeric_features] all_features[numeric_features].fillna(0)一个标签可能多种参数的情况
接下来将离散数值转成指示特征。举个例子假设特征MSZoning里面有两个不同的离散值RL和RM那么这一步转换将去掉MSZoning特征并新加两个特征MSZoning_RL和MSZoning_RM其值为0或1。如果一个样本原来在MSZoning里的值为RL那么有MSZoning_RL1且MSZoning_RM0。
# dummy_naTrue将缺失值也当作合法的特征值并为其创建指示特征
all_features pd.get_dummies(all_features, dummy_naTrue)
all_features.shape