如何理解主成分分析法

2025-05-21 00:46:39

主成分分析法,建成PCA,是非常常用的一种数据降维方法,今天我就带着大家一步步理解主成分分析法。

工具/原料

电脑

互联网

1.什么是降维?

1、首先第一个问题,什么是降维?提到降维,我们就不得不提各种综合评价方法。随便举个比例,比如说你现在在看我的经验时,你所在的城鞠艮卯阼市。你所在的城市有很多指标,比如说,GDP、人口、人均收入、城市面积、绿化程度,等等。现在你可以想想,有很多和你一起看经验的小朋友,大家都在不同的城市。那么,我们如何比较城市之间的好坏呢?

如何理解主成分分析法

2、看图我们可以发现,不同城市的排名。那么这个排名又是如何产生的呢?这就需要用到数据降维。

如何理解主成分分析法

3、如果我们可以把不同的数据如:GDP、人口、人均收入、城市面积、绿化程度,等等。综合成一个数据不就可以达到比较的目的了吗?主成分分析就可以做到!

如何理解主成分分析法

2.什么是PCA?

1、PCA就是主成分分析法,首先不要把他想的太难,如果用数学推倒的话,可能需要涉及最小二乘法、SVD分解等等较难的知识,但是好在如果只是想要使用主成分分析的话,借助计算机一步步操作就可以了,是很方便快捷的。我就会更新如何利用软件完成主成成分分析的具体步骤的经验,本条经验还是注重理解。

如何理解主成分分析法

2、观察下图,我们可以看到数据中有很多的点,这些点都是用两个坐标表示的,正如我前文所说的。我们很多时候需要用一个数字来直观地反应大小关系。

如何理解主成分分析法

3、现在想想一下,如果我们把图片旋转一下,如下图所示,当我们旋转到某一个位置时,让每个点的横坐标的平方和最大(此处使用的方法是最小二乘法),这时的x的坐标值就是主元1的值,通常我们做比较的时候用的呢就是主元1。

如何理解主成分分析法

4、很多朋友会觉得主成分分析法迷糊的原因,还有一个就是,为啥还有主元2、3、4、5之类的,这时咋回事呢?还是观察我刚才画的草图,其实让他们x的坐标最大,其实对应的就是让他们y的坐标最小化啊!他们的y坐标不就是主元2吗。再举个例子,比较房子好坏的时候,如果我们考虑距市中心远近、朝向,这时数据是2维的,就能算出不同房子的主元1和主元2,如果再加上一个小区绿化比率,就能算出主元3,但要注意的是,我们通常考虑主元1就可以了,主元2和主元3包含的有效信息已经比较少了,如果你发现主元2也很大,这时可能就要考虑主元2了,但实际上分离出的主元越少越好,这就是指标有效性评价范畴的知识了,会扩展很多,会在以后进行更新。

如何理解主成分分析法
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢