南京网站模板,学做网站的视频教学,网站建设怎么找客户,建网站什么样的域名最好PCA最常见的应用之一就是将高维数据集可视化。一般对于有两个以上特征的数据#xff0c;很难绘制散点图#xff0c;。对于Iris#xff08;鸢尾花#xff09;数据集#xff0c;我们可以创建散点矩阵图#xff0c;通过展示特征所有可能的两两组合来展示数据的局部图像。
不…PCA最常见的应用之一就是将高维数据集可视化。一般对于有两个以上特征的数据很难绘制散点图。对于Iris鸢尾花数据集我们可以创建散点矩阵图通过展示特征所有可能的两两组合来展示数据的局部图像。
不过类似cancer数据集包含30个特征这就导致需要绘制30*14420张散点图。
不过还可以用一种简单的可视化方法——对每个特征分别计算两个类别的直方图
import mglearn.plots
import numpy as np
from sklearn.datasets import make_blobs,load_breast_cancer
import matplotlib.pyplot as pltcancerload_breast_cancer()
fig,axesplt.subplots(15,2,figsize(10,20))
malignantcancer.data[cancer.target0]
benigncancer.data[cancer.target1]axaxes.ravel()for i in range(30):_,binsnp.histogram(cancer.data[:,i],bins50)ax[i].hist(malignant[:,i],binsbins,colormglearn.cm3(0),alpha0.5)ax[i].hist(benign[:,i],binsbins,colormglearn.cm3(2),alpha0.5)ax[i].set_title(cancer.feature_names[i])ax[i].set_yticks(())ax[0].set_xlabel(Feature magnitude)
ax[0].set_ylabel(Frequency)
ax[0].legend([malignant,benign],locbest)
fig.tight_layout()
plt.show()这里为每个特征创建了一个直方图计算具有某一特征的数据点在特点范围内bin的出现频率。
每张图都包含两个直方图一个是良性类别的所有点蓝色一个是恶性类别的所有点红色。这样可以了解每个特征在两个类别中的分布情况也可以猜测哪个特征能够很好的区分良性样本和恶性样本。 但是这种图无法展示变量之间的相互作用以及这种相互作用与类别之间的关系。利用PCA我们可以获取到主要的作用并得到稍微完整的图像。我们可以找到前两个主成分并在这个新的二维空间中用散点图将数据可视化 cancerload_breast_cancer()
scalerStandardScaler()
scaler.fit(cancer.data)
X_scalerscaler.transform(cancer.data)将PCA对象实例化调用fit方法找到主成分然后调用transform来旋转并降维。默认情况下PCA仅旋转并移动数据但保留所有的主成分。为了降低数据的维度我们需要在创建PCA对象时指定想要保留的主成分个数。 pcaPCA(n_components2)
pca.fit(X_scaler)X_pcapca.transform(X_scaler)
print(Original shape:{}.format(str(X_scaler.shape)))
print(Reduced shape:{}.format(str(X_pca.shape)))现在对前两个主成分作图 plt.figure(figsize(8,8))
mglearn.discrete_scatter(X_pca[:,0],X_pca[:,1],cancer.target)
plt.legend(cancer.target_names,locbest)
plt.gca().set_aspect(equal)
plt.xlabel(first)
plt.ylabel(second)
plt.show()需要注意的是PCA是一种无监督方法在寻找旋转方向时没有用到任何类别信息。它只是观察数据中的相关性。
对于这里的散点图我们绘制了第一主成分和第二主成分的关系然后利用类别信息对数据点进行着色。在这个二维空间中的两个类别被很好的分离。这让我们相信即使是线性分类器也可以在区分这个两个类别时表现的相当不错。
PCA的一个缺点是通常不容易对图中的两个轴进行解释。主成分对应于原始数据中的方向所以它们是原始特征的拟合。但这些组合往往非常复杂这一点我们很快就会看到。
在拟合过程中主成分被保存在PCA对象的components_属性中 print(PCA components shape:{}.format(pca.components_.shape)) components_中的每一行对应一个主成分它们按重要性排序。列对应于PCA的原始特征属性components_的内容
print(PCA components:{}.format(pca.components_)) 还可以用热图将系数可视化这可能更容易理解 plt.matshow(pca.components_,cmapviridis)
plt.yticks([0,1],[first,second])
plt.colorbar()
plt.xticks(range(len(cancer.feature_names)),cancer.feature_names,rotation60,haleft)plt.xlabel(feature)
plt.ylabel(Principal components)
plt.show() 可以看到在第一个主成分中所有特征的符号相同均为正。这意味着在所有特征之间存在普遍的相关性如果一个测量值很大的话其他的测量值可能也较大。第二个主成分的符号有正有负而且两个主成分都包含所有30个特征。这种所有特征的混合使得解释上图中的坐标轴非常困难。