认识与了解主成分析PCA

PCA 全称是Principal Component Analysis,又叫 做主成分析 。是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效办法。

PCA基本原则在最大程度反映原变量所代表的信息,同时保证新变量之间信息不重复。在生物学上,常常用于将SNP信息浓缩为几个新的变量。一般而言,PCA分析之后会给出一个PCA图,而这个图往往会显示出某种分群的特性,这就是我们群体遗传中使用PCA图的原因,可以将其分群或者验证前面系统发育进化树和后面要讲到的structure图的结果。

PCA听起来好像很强大,但具体其算法是怎样的?

以小鼠的RNA-seq数据为例,先看2个genes的表达量:

PCA的算法如下:

以PC1和PC2为标准坐标轴,绘制PCA图。

下面分别拆解上述步骤:

寻找并平移中心点

如下图所示,先对Gene1求平均值,在对Gene2求平均值,于是就可以获得所有数据的中心点,然后将坐标系原点平移至此中心点。

计算PC1

计算PC1就是为了获得一条过原点的直线,所有数据点距离此直线的距离平方和最小。以一个点为例,也就是下图中1图的距离a最小,由于每个数据点距离原点的距离是固定的,所以使得距离a最小,也就是使得距离b最大。

最终可以求得最佳拟合直线如下图3所示,假定此直线斜率为0.25,也就是说"PC1由4份Gene1和1份Gene2构成",计算方法是“奇异值分解”。

由于奇异值分解时,斜边c是标准化为1的,所以标准化之后,PC1由”0.97份Gene1和0.242份Gene2构成"

计算PC2

在PCA中,各个主成分之间是相互垂直的,在这里PC2和PC1是垂直的,也就是PC2的斜率为4,经过标准化之后,"PC2由-0.242份Gene1和0.97份Gene2构成"。

于是PC1和PC2都已经找到,分别是下图中的红色虚线和蓝色虚线坐标轴

绘制PCA图

于是所有的数据点都可以转换为坐标(PC1,PC2),以PC1和PC2为坐标轴即可绘制出相应的PCA图。

2个Gene的PCA过程如上,3个Gene的PCA同理,先获得中心点,然后对所有点进行拟合获得PC1,然后在垂直于PC2的线中,找到最佳拟合线,最后PC3是垂直于PC1和PC2的。有几个样本就会有几个主成分,且主成分的重要性依次下降,PC1>PC2>PC3。

1. 简化运算

在问题研究中,为了全面系统地分析问题,我们通常会收集众多的影响因素也就是众多的变量。这样会使得研究更丰富,通常也会带来较多的冗余数据和复杂的计算量。

例如,我们测序了100种样品的基因表达谱借以通过分子表达水平的差异对这100种样品进行分类。在这个问题中,研究的变量就是不同的基因。每个基因的表达都可以在一定程度上反应样品之间的差异,但某些基因之间却有着调控、协同或拮抗的关系,表现为它们的表达值存在一些相关性,这就造成了统计数据所反映的信息存在一定程度的冗余。另外假如某些基因如持家基因在所有样本中表达都一样,它们对于解释样本的差异也没有意义。这么多的变量在后续统计分析中会增大运算量和计算复杂度,应用PCA就可以在尽量多的保持变量所包含的信息又能维持尽量少的变量数目,帮助简化运算和结果解释。

2. 降噪去除outliners

比如说我们在样品的制备过程中,由于不完全一致的操作,导致样品的状态有细微的改变,从而造成一些持家基因也发生了相应的变化,但变化幅度远小于核心基因(一般认为噪音的方差小于信息的方差)。而PCA在降维的过程中滤去了这些变化幅度较小的噪音变化,增大了数据的信噪比。

3. 进行多维数据可视化

在上面的表达谱分析中,假如我们有1个基因,可以在线性层面对样本进行分类;如果我们有2个基因,可以在一个平面对样本进行分类;如果我们有3个基因,可以在一个立体空间对样本进行分类;如果有更多的基因,比如说n个,那么每个样品就是n维空间的一个点,则很难在图形上展示样品的分类关系。利用PCA分析,我们可以选取贡献最大的2个或3个主成分作为数据代表用以可视化。这比直接选取三个表达变化最大的基因更能反映样品之间的差异。(利用Pearson相关系数对样品进行聚类在样品数目比较少时是一个解决办法)

4. 发现隐性相关变量

我们在合并冗余原始变量得到主成分过程中,会发现某些原始变量对同一主成分有着相似的贡献,也就是说这些变量之间存在着某种相关性,为相关变量。同时也可以获得这些变量对主成分的贡献程度。对基因表达数据可以理解为发现了存在协同或拮抗关系的基因。

参考资料:



  • 濡備綍鐞嗚В涓绘垚鍒嗗垎鏋娉 (PCA)
    绛旓細浠涔堟槸涓绘垚鍒嗗垎鏋娉曪紵涓绘垚鍒嗗垎鏋愭硶锛PCA锛夋槸涓绉嶇粺璁℃柟娉曪紝閫氳繃閫傚綋鐨勬暟瀛﹀彉鎹紝灏嗗師濮嬪彉閲忚浆鎹㈡垚绾挎х粍鍚堢殑鏂板彉閲忥紝杩欎簺鏂板彉閲忕О涓轰富鎴愬垎銆傞夊彇鐨勪富鎴愬垎鑳藉鍙嶆槧鍘熷彉閲忕殑澶ч儴鍒嗕俊鎭紝骞朵笖褰兼涔嬮棿涓嶇浉鍏炽傝繖绉嶆柟娉曞彲浠ユ湁鏁堝湴闄嶄綆鏁版嵁鐨勭淮搴︼紝鍑忓皯鍐椾綑鍜鍣煶锛屽悓鏃跺敖鍙兘鍦颁繚鐣欏師濮嬫暟鎹殑涓昏鐗瑰緛銆備富鎴愬垎鍒嗘瀽...
  • pca涓绘垚鍒嗗垎鏋
    绛旓細PCA(PrincipalComponentAnalysis)锛屽嵆涓绘垚鍒嗗垎鏋鏂规硶锛屾槸涓绉嶄娇鐢ㄦ渶骞挎硾鐨勬暟鎹檷缁寸畻娉曘侾CA鐨勪富瑕佹濇兂鏄皢n缁寸壒寰佹槧灏勫埌k缁翠笂锛岃繖k缁存槸鍏ㄦ柊鐨勬浜ょ壒寰佷篃琚О涓轰富鎴愬垎锛屾槸鍦ㄥ師鏈塶缁寸壒寰佺殑鍩虹涓婇噸鏂版瀯閫犲嚭鏉ョ殑k缁寸壒寰併侾CA鐨勫伐浣滃氨鏄粠鍘熷鐨勭┖闂翠腑椤哄簭鍦版壘涓缁勭浉浜掓浜ょ殑鍧愭爣杞达紝鏂扮殑鍧愭爣杞寸殑閫夋嫨涓庢暟鎹...
  • pca鏄粈涔堟剰鎬
    绛旓細PCA鍗充富鎴愬垎鍒嗘瀽鎶鏈紝鍙堢О涓诲垎閲忓垎鏋愩備富鎴愬垎鍒嗘瀽涔熺О涓诲垎閲忓垎鏋愶紝鏃ㄥ湪鍒╃敤闄嶇淮鐨勬濇兂锛屾妸澶氭寚鏍囪浆鍖栦负灏戞暟鍑犱釜缁煎悎鎸囨爣銆傚湪缁熻瀛︿腑锛涓绘垚鍒嗗垎鏋怭CA鏄竴绉嶇畝鍖栨暟鎹泦鐨勬妧鏈傚畠鏄竴涓嚎鎬у彉鎹傝繖涓彉鎹㈡妸鏁版嵁鍙樻崲鍒颁竴涓柊鐨勫潗鏍囩郴缁熶腑锛屼娇寰椾换浣曟暟鎹姇褰辩殑绗竴澶ф柟宸湪绗竴涓潗鏍(绉颁负绗竴涓绘垚鍒)涓...
  • PCA涓绘垚鍒嗗垎鏋鍘熺悊
    绛旓細鍦ㄨ繘琛屾暟鎹簨浠剁浉浼兼ц绠椾笌姣旇緝鏃,闇瑕侀愮偣璁$畻鍏跺樊寮;鍦ㄨ繘琛岃仛绫绘椂浜﹁瀵规墍鏈夋暟鎹簨浠惰繘琛屾瘮杈,瀵艰嚧璁$畻鏁堢巼闈炲父浣庝笅銆傚洜姝ゅ緢鏈夊繀瑕佹寲鎺樻暟鎹簨浠跺唴閮ㄧ粨鏋,灏嗗叾鍙橀噺杩涜缁勫悎,姹傚彇鐗瑰緛鍊,骞剁敤灏戦噺鐗瑰緛鍊煎畬鎴愭暟鎹簨浠剁殑鑱氱被,鏈夋晥鎻愰珮鍌ㄥ眰寤烘ā鏁堢巼銆傚洜姝,PCA涓绘垚鍒嗗垎鏋琚紩鍏ュ埌澶氱偣鍦拌川缁熻瀛︿腑銆備富鎴愬垎鍒嗘瀽(...
  • 涓绘垚鍒嗗垎鏋(PCA)绠浠
    绛旓細PCA鏄竴绉嶅箍娉涘簲鐢ㄧ殑闄嶇淮鍒嗘瀽鎶鏈紝鐢盤CA寤虹珛鐨勬柊鍧愭爣绌洪棿鏄師妯″紡绌洪棿鐨勭嚎鎬у彉鎹紝涓旂敤涓缁勬浜ゅ熀渚濇鍙嶆槧浜嗙┖闂寸殑鏈澶у垎鏁g壒寰併PCA鍜鍥犲瓙鍒嗘瀽鐨勫樊鍒湪浜庯細PCA鏄敤鏈灏戜釜鏁扮殑涓绘垚鍒鍗犳湁鏈澶х殑鎬绘柟宸紝鑰屽洜瀛愬垎鏋愭槸鐢ㄥ敖鍙兘灏戠殑鍏叡鍥犲瓙鏈浼樺湴瑙i噴鍚勪釜鍙橀噺涔嬮棿鐨勭浉浜掑叧绯汇傝鏈塏涓瀵熸牱鏈紝鍏剁壒寰佸彉閲...
  • pca涓绘垚鍒嗗垎鏋鏄粈涔?
    绛旓細鎵浠ユ暟鎹殑鍑嗙‘鎬у鍒嗘瀽缁撴灉褰卞搷寰堝ぇ銆備娇鐢ㄧ粺璁℃柟娉曡绠PCA 浠ヤ笅鏄娇鐢ㄧ粺璁℃柟娉曡绠桺CA鐨勮缁嗚鏄庛備絾鏄娉ㄦ剰锛屽鏋滃埄鐢ㄥ寮傚煎垎瑙o紙浣跨敤鏍囧噯鐨勮蒋浠讹級鏁堟灉浼氭洿濂姐傛垜浠殑鐩爣鏄妸涓涓粰瀹氱殑鍏锋湁 M 缁寸殑鏁版嵁闆哫 鍙樻崲鎴愬叿鏈夎緝灏忕淮搴 L鐨勬暟鎹泦Y銆傜幇鍦ㄨ姹傜殑灏辨槸鐭╅樀Y锛孻鏄煩闃礨 Karhunen鈥揕o猫ve鍙樻崲銆
  • 涓绘垚鍒嗗垎鏋鐨勮嫳鏂囩缉鍐欐槸
    绛旓細涓绘垚鍒嗗垎鏋鐨勮嫳鏂囩缉鍐欐槸PCA銆備富鎴愬垎鍒嗘瀽锛圥rincipal Component Analysis锛孭CA锛夛紝 鏄竴绉嶇粺璁℃柟娉曘傞氳繃姝d氦鍙樻崲灏嗕竴缁勫彲鑳藉瓨鍦ㄧ浉鍏虫х殑鍙橀噺杞崲涓轰竴缁勭嚎鎬т笉鐩稿叧鐨勫彉閲忥紝杞崲鍚庣殑杩欑粍鍙橀噺鍙富鎴愬垎銆傚湪瀹為檯璇鹃涓紝涓轰簡鍏ㄩ潰鍒嗘瀽闂锛屽線寰鎻愬嚭寰堝涓庢鏈夊叧鐨勫彉閲忥紙鎴栧洜绱狅級锛屽洜涓烘瘡涓彉閲忛兘鍦ㄤ笉鍚岀▼搴︿笂鍙嶆槧...
  • pca涓绘垚鍒鏄粈涔?
    绛旓細涓绘垚鍒嗗垎鏋锛圥rincipal Component Analysis锛PCA)锛屽皢澶氫釜鍙橀噺閫氳繃绾挎у彉鎹互閫夊嚭杈冨皯涓暟閲嶈鍙橀噺鐨勪竴绉嶅鍏冪粺璁″垎鏋愭柟娉曘傚張绉颁富鍒嗛噺鍒嗘瀽銆傚湪瀹為檯璇鹃涓紝涓轰簡鍏ㄩ潰鍒嗘瀽闂锛屽線寰鎻愬嚭寰堝涓庢鏈夊叧鐨勫彉閲忥紙鎴栧洜绱狅級锛屽洜涓烘瘡涓彉閲忛兘鍦ㄤ笉鍚岀▼搴︿笂鍙嶆槧杩欎釜璇鹃鐨勬煇浜涗俊鎭備富鎴愬垎鍒嗘瀽棣栧厛鏄敱K.鐨皵妫闈為殢鏈...
  • pca鏄粈涔
    绛旓細鍏朵富瑕佺洰鐨勬槸閫氳繃瀵规暟鎹殑闄嶇淮澶勭悊锛屾彁鍙栧嚭鏁版嵁涓殑涓昏鐗瑰緛鎴愬垎锛屼互渚胯繘琛屽悗缁殑鏁版嵁澶勭悊鍜屽垎鏋銆PCA閫氳繃瀵规暟鎹殑鍗忔柟宸煩闃佃繘琛岀壒寰佸煎垎瑙o紝寰楀埌鏁版嵁鐨涓绘垚鍒锛岃繖浜涗富鎴愬垎鑳藉鏈澶х▼搴﹀湴淇濈暀鍘熷鏁版嵁涓殑淇℃伅锛屽苟涓旂浉浜掔嫭绔嬨傚洜姝わ紝PCA骞挎硾搴旂敤浜庡悇涓鍩熺殑鏁版嵁鍒嗘瀽鍜澶勭悊涓
  • 涓绘垚鍒嗗垎鏋怭CA
    绛旓細鎵浠CA鍥惧湪鏂囩尞涓嚭鐜扮巼杩樻槸铔珮鐨勶紒锛侊紒涓嶈繃閬囧埌瀹冩垜浠庝箞鐪嬶紵 娣卞叆浜嗚ВPCA 璇嗗浘绉樼睄 鏍锋湰鐐硅繛绾 璺濈闀 =鏍锋湰涔嬮棿宸紓鎬уぇ 鏍锋湰鐐硅繛绾 璺濈鐭 =鏍锋湰涔嬮棿宸紓鎬у皬 1銆佸悇鏍锋湰鐐硅繛绾跨殑璺濈锛氫綋鐜板悇鍥藉铔嬬櫧鎽勫叆涔犳儻鐨勭浉浼兼с2銆涓绘垚鍒涓庡師鍙橀噺涔嬮棿鐨勫叧绯伙細绠ご瀵瑰簲鐨勫師濮嬪彉閲忓湪鎶曞奖鍒版按骞鍜鍨...
  • 扩展阅读:spc分析图 ... pca主成分分析图怎么画 ... 常见的spc五种控制图 ... pca分析得分图解读 ... 主成分分析pca图解读 ... 基于pca和svm的人脸识别 ... catpca主成分分析怎么做 ... 主成分分析图结果解读 ... 主成分分析pc1多少正常 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网