收藏本站

人工智能培训机构,上海涛德,算法工程师,数据科学家高端培训机构-上海涛德

查看: 2318|回复: 0

涛德人工智能培训原创系列:机器学习中的PCA算法

[复制链接]

46

主题

0

好友

666

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2018-4-10 19:46:13 |显示全部楼层
PCA(Principal components analysis)降维特征处理

当训练数据有大量的维度,对于训练而言是一个灾难,这时我们需要在不影响模型主要效果的情况下降低维度,我们之前学习的随机森林、和以后要学的卷积神经网络带有降维的功能。

另外还有其他很多等其他特征工程的方法来降低维度。其中PCA是应用最多的一种。降维后的数据为 第一,第二,………第M  主成分。例如原始有M个维度,我们可以把数据降低到2维度,就表示取第一,第二 2个主成分。其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。

第一主成分:

例如下图的点表示了2维的数据,如果我们需要把它降低到一维来表示。那么就要再原始的图形上找到一个向量,下图的接近45度的那条直线线。同时保证所有点到直线的垂直距离平方和最短,如果能够找到这条线,这条线就第一主成分方向,这些原始的点在直线的投影就是第一主成分。聪明的你可以已经想到了,第一主成分的方向这不就是特征值最大那个向量嘛。

然后直线旋转到水平方向,这时原始的两个维度,就变成一个维度了。

其实可能你已经看到了,第一主成分的方向就是原始数据中方差最大的方向。方差越大,则样本在该特征上的差异就越大,因此该特征就越重要。也就是第一主成分可以看成是综合了多个特征的后得到一个新的特征的值。

第二主成分

第二主成分向量方向是与第一主成分方向垂直。例如下图。也就是第二主成分可以看成是除去第一个主成分,综合了多个特征的后得到第二个新的特征的值。


您需要登录后才可以回帖 登录 | 立即注册

<点击:上海涛德Oracle OCM认证及BI商业智能课程>|人工智能培训-上海涛德 ( 沪ICP备14006824号 )|网站地图   My title page contents

GMT+8, 2018-7-17 10:10 , Processed in 0.230717 second(s), 26 queries , Gzip On.

回顶部