PCA 主成分分析

Python,算法 2018-01-24

PCA(Principal Component Analysis,主成分分析):

  • 特征降维,有时候也称之为特征抽取(用于降维的特征选择方法) 或数据压缩,因为现实生活中产生的数据是越来越多,数据压缩技术可以帮助我们对数据进行存储和分析。
  • 为什么要进行数据降维?

    • 通常处理的数据是多维的,算法的时间复杂度跟维数成指数级增加。维数达上千万维,称为维数灾难, 往往就需要进行降维处理。
  • 数据降维的作用:

    • 1.使数据集更容易使用;
    • 2.降低算法的计算开销;
    • 3.去除噪声;
    • 4.减轻过拟合;
    • 5.易于获取有价值的信息;
  • 如 PCA 主成分分析的应用领域包括:股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。
  • 从数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。

PCA 思想:

  • 1.PCA 实际上是求一个投影矩阵 P,用高维的原始数据乘以这个投影矩阵,便可以将高维特征的维数下降到指定的维数。
  • 2.由于特征值能够表示数据集的特征重要性,所以在求出所有特征值后,按特征值从大到小进行排列,然后取前 r 个特征值对应的特征向量(新坐标轴)进行矩阵变换,即可在最大化保持数据信息的前提下进行降维。
  • 3.第一个新坐标轴选择的是数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有方差次大的方向,重复选取 N 个新坐标轴。

PCA 算法流程

PCA 优缺点:

  • 优点: 降低数据的复杂性, 识别最重要的多个特征
  • 缺点: 不一定需要, 且可能损失有用信息

每一个成功的背后都有无数个无人知晓的黑夜。

因为

夜晚,是超越对手的最佳时机。

===================== 码农1204 =====================#蔺光岭#


本文由 蔺光岭 创作,采用 知识共享署名 4.0,可自由转载、引用,但需署名作者且注明文章出处。

还不快抢沙发

添加新评论