主成分分析(PCA)

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。

统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。

主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。

方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行

假设 是m维随机变量,其均值是
,
协方差矩阵是

考虑到m维随机变量 到m维随机变量 的线性变换

其中

由随机变量的性质可知

总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件

设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是

的第k主成分的方差是

即协方差矩阵 的第k个特征值

首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的

求第一主成分就是求解最优化问题

定义拉格朗日函数

其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得

因此 是 的特征值, 是对应的单位特征向量。于是目标函数

假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值

接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大

求第二主成分需参求解约束最优化问题

定义拉格朗日函数

其中 对应拉格朗日乘子。对 求偏导,并令其为0,得

将方程左则乘以 有

此式前两项为0,且 ,导出 ,因此式成为

由此, 是 的特征值, 是对应的特征向量,于是目标函数为

假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,

按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。

主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。

对任意正整数 ,考虑正交线性变换

其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为

则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。

这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。

以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。

第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作

k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比

通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。

k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作


计算公式如下:

其中, 是随机变量 的方差,即协方差矩阵 的对角元素。

在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1

设 为随机变量, 为第i个随机变量, ,令

其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。

在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。

使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:

其中


样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。

传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法

给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析

给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分

对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解

式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到

定义一个新的 矩阵

的每一列均值为0,

即 等于X的协方差矩阵

主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。

假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现



  • 鏁版嵁鍒嗘瀽 甯哥敤鐨勯檷缁存柟娉曚箣涓绘垚鍒嗗垎鏋
    绛旓細涓绘垚鍒嗗垎鏋愶紙Principal Component Analysis锛PCA锛涔熺О涓诲垎閲忓垎鏋愶紝鏃ㄥ湪鍒╃敤闄嶇淮鐨勬濇兂锛屾妸澶氭寚鏍囪浆鍖栦负灏戞暟鍑犱釜缁煎悎鎸囨爣銆傚湪缁熻瀛︿腑锛屼富鎴愬垎鍒嗘瀽鏄竴绉嶇畝鍖栨暟鎹泦鐨勬妧鏈傚畠鏄竴涓嚎鎬у彉鎹傝繖涓彉鎹㈡妸鏁版嵁鍙樻崲鍒颁竴涓柊鐨勫潗鏍囩郴缁熶腑锛屼娇寰椾换浣曟暟鎹姇褰辩殑绗竴澶ф柟宸湪绗竴涓潗鏍(绉颁负绗竴涓绘垚鍒)涓婏紝绗簩...
  • spss涓绘垚鍒嗗垎鏋鐨勫師鐞嗘槸浠涔?
    绛旓細涓绘垚鍒(pca)鍒嗘瀽閫氬父鏈変笁涓楠わ紱绗竴姝ユ槸鍒ゆ柇鏄惁閫傚悎杩涜涓绘垚鍒(pca)鍒嗘瀽锛涚浜屾鏄富鎴愬垎涓庡垎鏋愰」瀵瑰簲鍏崇郴锛涚涓夋鏄富鎴愬垎鍛藉悕.绗竴姝:鍒ゆ柇鏄惁杩涜涓绘垚鍒(pca)鍒嗘瀽;鍒ゆ柇鏍囧噯涓篕MO鍊煎ぇ浜0.6.绗簩姝:涓绘垚鍒嗕笌鍒嗘瀽椤瑰搴斿叧绯诲垽鏂.鐗瑰埆鎻愮ず锛氬鏋滅爺绌剁洰鐨勫畬鍏ㄥ湪浜庝俊鎭祿缂╋紝骞朵笖鎵惧嚭涓绘垚鍒嗕笌鍒嗘瀽椤...
  • 銆奟璇█瀹炴垬銆嬭嚜瀛︾瑪璁71-涓绘垚鍒鍜屽洜瀛鍒嗘瀽
    绛旓細涓绘垚鍒嗗垎鏋((Principal Component Analysis,PCA)鏄竴绉嶆暟鎹檷缁存妧宸,瀹冭兘灏嗗ぇ閲忕浉鍏冲彉閲忚浆鍖栦负涓缁勫緢灏戠殑涓嶇浉鍏冲彉閲,杩欎簺鏃犲叧鍙橀噺绉颁负涓绘垚鍒(鍘熸潵鍙橀噺鐨勭嚎鎬х粍鍚)銆傛暣浣撴濇兂灏辨槸鍖栫箒涓虹畝,鎶撲綇闂鍏抽敭,涔熷氨鏄檷缁存濇兂銆 涓绘垚鍒嗗垎鏋愭硶鏄氳繃鎭板綋鐨勬暟瀛﹀彉鎹,浣挎柊鍙橀噺鈥斺斾富鎴愬垎鎴愪负鍘熷彉閲忕殑绾挎х粍鍚,骞堕夊彇灏戞暟鍑犱釜鍦...
  • 涓绘垚鍒嗗垎鏋鐨勮嫳鏂囩缉鍐欐槸
    绛旓細涓绘垚鍒嗗垎鏋愮殑鑻辨枃缂╁啓鏄疨CA銆涓绘垚鍒嗗垎鏋愶紙Principal Component Analysis锛PCA锛锛 鏄竴绉嶇粺璁℃柟娉曘傞氳繃姝d氦鍙樻崲灏嗕竴缁勫彲鑳藉瓨鍦ㄧ浉鍏虫х殑鍙橀噺杞崲涓轰竴缁勭嚎鎬т笉鐩稿叧鐨勫彉閲忥紝杞崲鍚庣殑杩欑粍鍙橀噺鍙富鎴愬垎銆傚湪瀹為檯璇鹃涓紝涓轰簡鍏ㄩ潰鍒嗘瀽闂锛屽線寰鎻愬嚭寰堝涓庢鏈夊叧鐨勫彉閲忥紙鎴栧洜绱狅級锛屽洜涓烘瘡涓彉閲忛兘鍦ㄤ笉鍚岀▼搴︿笂鍙嶆槧...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-涓绘垚鍒嗗垎鏋
    绛旓細涓绘垚鍒嗗垎鏋(鑻辫:Principal components analysis,PCA)鏄竴绉嶅垎鏋愩佺畝鍖栨暟鎹泦鐨勬妧鏈 閫氳繃闄嶇淮鎶鏈妸澶氫釜鍙橀噺鍖栦负灏戞暟鍑犱釜涓绘垚鍒(缁煎悎鍙橀噺)鐨勭粺璁″垎鏋愭柟娉曘傝繖浜涗富鎴愬垎鑳藉鍙嶆槧鍘熷鍙橀噺鐨勭粷澶ч儴鍒嗕俊鎭,瀹冧滑閫氬父琛ㄧず涓哄師濮嬪彉閲忕殑鏌愮绾挎х粍鍚堛 涓绘垚鍒嗗垎鏋愮粡甯哥敤浜庡噺灏戞暟鎹泦鐨勭淮鏁,鍚屾椂淇濇寔鏁版嵁闆嗕腑鐨勫鏂瑰樊璐$尞鏈澶х殑...
  • 涓绘垚鍒嗗垎鏋娉
    绛旓細(涓)涓绘垚鍒嗗垎鏋鐨勫熀鏈師鐞 涓绘垚鍒嗗垎鏋愭硶(Principal Components Analysis锛PCA)鏄妸鍘熸潵澶氫釜鍙橀噺鍖栦负灏戞暟鍑犱釜缁煎悎鎸囨爣鐨勪竴绉嶇粺璁″垎鏋愭柟娉曘備粠鏁板瑙掑害鏉ョ湅锛岃繖鏄竴绉嶉檷缁村鐞嗘柟娉曪紝鍗抽氳繃瀵瑰師濮嬫寚鏍囩浉鍏崇煩闃靛唴閮ㄧ粨鏋滃叧绯荤殑鐮旂┒锛屽皢鍘熸潵鎸囨爣閲嶆柊缁勫悎鎴愪竴缁勬柊鐨勭浉浜掔嫭绔嬬殑鎸囨爣锛屽苟浠庝腑閫夊彇鍑犱釜缁煎悎鎸囨爣鏉ュ弽鏄犲師濮...
  • 鍏充簬涓绘垚鍒嗗垎鏋怭CA璇存硶姝g‘鐨勬槸?
    绛旓細銆愮瓟妗堛戯細A銆丅銆丏 PCA瀵规暟鎹昂搴﹀緢鏁忔劅, 鎵撲釜姣旀柟, 濡傛灉鍗曚綅鏄粠km鍙樹负cm, 杩欐牱鐨勬暟鎹昂搴﹀PCA鏈鍚庣殑缁撴灉鍙兘寰堟湁褰卞搷(瀵艰嚧鍏朵粠涓嶆庝箞閲嶈鐨勬垚鍒嗗彉涓哄緢閲嶈鐨勬垚鍒). 鎴戜滑鎬绘槸搴旇閫夋嫨浣垮緱妯″瀷鏈夋渶澶ariac鐨涓绘垚鍒 鏈夋椂鍦ㄤ綆缁村害涓婂仛鍥炬槸闇瑕丳CA鐨勯檷缁村府鍔╃殑 ...
  • pca涓绘垚鍒嗗垎鏋
    绛旓細涓绘垚鍒嗗垎鏋怭CA鏄竴绉嶇畝鍖栨暟鎹泦鐨勬妧鏈傚畠鏄竴涓嚎鎬у彉鎹傝繖涓彉鎹㈡妸鏁版嵁鍙樻崲鍒颁竴涓柊鐨勫潗鏍囩郴缁熶腑锛屼娇寰椾换浣曟暟鎹姇褰辩殑绗竴澶ф柟宸湪绗竴涓潗鏍(绉颁负绗竴涓绘垚鍒)涓婏紝绗簩澶ф柟宸湪绗簩涓潗鏍(绗簩涓绘垚鍒)涓婏紝渚濇绫绘帹銆備富鎴愬垎鍒嗘瀽缁忓父鐢ㄤ簬鍑忓皯鏁版嵁闆嗙殑缁存暟锛屽悓鏃朵繚鎸佹暟鎹泦鐨勫鏂瑰樊璐$尞鏈澶х殑鐗瑰緛銆
  • 涓绘垚鍒嗗垎鏋涓疮绉础鐚巼鐨勫叿浣撴剰涔夋槸浠涔?
    绛旓細涓绘垚鍒嗗垎鏋愪腑绱Н璐$尞鐜囩殑鍏蜂綋鎰忎箟濡備笅锛涓绘垚鍒嗗垎鏋愶紙PCA锛鏄竴绉嶅箍娉涗娇鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶锛屽畠閫氳繃绾挎у彉鎹㈠皢鍘熷鏁版嵁鍙樻崲涓轰竴缁勫悇缁村害绾挎ф棤鍏崇殑琛ㄧず锛岃兘澶熷弽鏄犲嚭鏁版嵁鐨勪富瑕佺壒寰併傚湪PCA涓紝绱Н璐$尞鐜囨槸涓涓噸瑕佺殑姒傚康锛屽畠琛ㄧず姣忎釜涓绘垚鍒嗘墍淇濈暀鐨勫師濮嬫暟鎹柟宸殑姣斾緥銆傜疮绉础鐚巼鐨勮绠楁柟娉曟槸锛屼粠绗竴涓富...
  • 楂樺厜璋pca鏄粈涔堟剰鎬?
    绛旓細楂樺厜璋PCA鏄竴椤瑰湪鐜颁唬鍏夊鎶鏈腑琚箍娉涘簲鐢ㄧ殑鏁版嵁澶勭悊鍜屽垎鏋愭妧鏈侾CA鍗涓绘垚鍒嗗垎鏋锛屾槸涓绉嶅皢楂樼淮鏁版嵁杞崲涓轰綆缁存暟鎹殑绠楁硶銆傝岄珮鍏夎氨PCA鍒欐槸灏嗚繖绉嶇畻娉曞簲鐢ㄤ簬楂樺厜璋卞浘鍍忔暟鎹殑涓绉嶆柟娉曘傞氳繃璇ユ妧鏈紝鍙互灏嗛珮缁寸殑楂樺厜璋辨暟鎹浆鎹负浣庣淮鐨勪富鎴愬垎锛屼粠鑰屾柟渚垮湴瀵瑰浘鍍忚繘琛屽垎鏋愬拰澶勭悊銆傞珮鍏夎氨PCA鐨勫簲鐢ㄩ鍩熼潪甯...
  • 扩展阅读:pca分析及作图软件 ... pca主成分分析的pc1和pc2 ... 主成分分析pca图解读 ... pca主成分分析 源解析 ... pca主成分分析图怎么画 ... 主成分分析例题 ... catpca主成分分析怎么做 ... 主成分分析图怎么看 ... 主成分分析流程图 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网