因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。
在统计学中,主成分分析(PCA)是-种简化数据集的技术。它是一个线性变换。
这个变换把数据变换,到一个新的坐标系统中,使得任何数据投影的第- -大方差在第一个坐标(称为第-主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。