如何使用Python PCA
1


2、PCA主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。PCA的一般步骤是:先对原始数据零均值化,然后求协方差矩阵,接着对协方差矩阵求特征向量和特征值,这些特征向量组成了新的特征空间。

3、PCA属性:components_ :返回具有最大方差的成分。explained_variance_ratio_:返回 所保留的n个成分各自的方差百分比。n_components_:返回所保留的成分个数n。mean_:noise_variance_:PCA方法:1、fit(X,y=None)fit(X),表示用数据X来训练PCA模型。函数返回值:调用fit方法的对象本身。比如pca.fit(X),表示用X对pca这个对象进行训练。拓展:fit()可以说是scikit-learn中通用的方法,每个需要训练的算法都会有fit()方法,它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法,此处y自然等于None。2、fit_transform(X)用X来训练PCA模型,同时返回降维后的数据。newX=pca.fit_transform(X),newX就是降维后的数据。3、inverse_transform(X)将降维后的数据转换成原始数据,X=pca.inverse_transform(newX)4、transform(X)将数据X转换成降维后的数据。当模型训练好后,对于新输入的数据,都可以用transform方法来降维。此外,还有get_covariance()、get_precision()、get_params(deep=True)、score(X, y=None)等方法,以后用到再补充吧。实例:

4、我们所训练的pca对象的n_components值为2,即保留2个特征,第一个特征占所有特征的方差百分比为0.99244289,意味着几乎保留了所有的信息。即第一个特征可以99.24%表达整个数据集,因此我们可以降到1维:
