西瓜书第10章-降维PCA(主成分分析)

西瓜书 第10章讲解的是 降维 和 度量学习 的相关内容

对于数组和 Series 而言,维度就是 shape 返回的数值。 shape 中 返回了几个数字,就是几维。

索引以外的数据,不分行列的称之为一维,有行列之分的称之为二维,也称之为表。一张表最多是二维的。

数组中的每张表可以是一个特征矩阵或者一个 DataFrame 。 行是样本,列是特征。

对于图像而言,维度就是图像中特征向量的数量。特征向量可以理解成坐标轴。

降维算法中降维指的是:降低特征矩阵中特征的数量。

sklearn 中的降维算法在 decomposition 中。 模块的本质是矩阵分解模块。 代表是 SVD 奇异值分解。

主成分分析中的常见的模块:

高级矩阵分解

在降维的过程中,会减少特征的数量,则意味着需要删除数据: 减少特征数量、保留大部分有效信息

如果一个特征的方差

为了得到样本方差的无偏估计。 为什么样本方差的分母是n-1

通过一个 二维降低到一维 的栗子来说明降维的实现过程

上面原始数据中,两个特征的均值都是 2 ,方差都是​;总方差都是 2

逆时针旋转 45 度之后变成了

的均值和方差都是 0 ; 的均值是 ;方差是 2 。总方差也是 2

将二维矩阵和 n 维矩阵进行类比,掌握降维算法的基本过程:

参考文章 PCA数学原理

两个 维度相同 向量(机器学习中一般是指列向量)的内积被定义成

内积将两个向量映射成为一个实数

, 为它们之前的夹角, 投影的矢量长度 是 表示模,也就是A线段的标量长度。内积的另一种表示形式为

也就是A到B的投影长度乘以B的模。 特殊情况下,如果B的模是1 ,那么内积结果就是 A到B的投影长度

一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。代数中常用线段的终点坐标表示向量,例如下面的(3,2)。

实际上向量(3,2)表示的是在X轴上的投影是3,Y轴上的投影是2。

在二维坐标系中,向量(x,y)实际上表示为线性组合:


那么,(1,0)和(0,1)可以看做是二维空间中的 一组基

例如,(1,1)和(-1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了。上面的基变成了 ,即除以了各自的模 。

那么(3,2)在这组基下的新坐标为


矩阵的两行表示两个基,乘以原来的向量,得到新基下的坐标。

一般的,如果我们有 M 个 N 维向量,想将其变换为由 R 个 N 维向量表示的新空间中

两个矩阵相乘的意义是:将 右边矩阵中的每列列向量 变换到 左边矩阵中的每一行行向量作为基 所表示的空间中去。

将所有的字段减去字段均值 ,结果变成了每个字段都变成了均值为 0

一个字段的方差 可以看做是每个元素与字段均值 的差的平方和的均值

由于每个字段的 均值变成了0 ,那么 总的方差 可以简写成

数学上可以用两个字段的协方差表示其 相关性

当均值为0,上面的协方差公式可以表示为

当样本数较大时,不必在意其是 m 还是 m-1,为了方便计算,我们分母取 m。

当协方差为0,表示两个字段完全独立;为了让协方差为0,第二个基应当在和第一个基正交的方向上( 垂直方向

协方差矩阵是

原始的协方差矩阵是C,P是一组基按行组成的矩阵,设Y=PX,Y对应的协方差矩阵是D

由于 C是一个对称矩阵 ,满足:

e 代表的是单位向量,对于协方差矩阵 C 的结论如下:

那么P是协方差矩阵的特征向量单位化后按行排列出的矩阵,

解决方法:希望投影后的投影值尽量地分散。满足的条件是:

比较大,所以使用 作为基

重要的参数是 n_components ,降维之后需要保留的特征数量,取值在 [0, min(X.shape)] 。如果不填写,默认是 min(X.shape)

如何取出每种鸢尾花的两个特征中的数据

主要是两个属性

当 n_components 中不填写任何值,默认是min.(X.shape)个特征。通过累计可解释性方差贡献率曲线来选择最好的 n_components 。曲线横纵坐标分别是:

n_components 中不仅可以填写数字,还可以通过极大似然估计 MLE 来自选超参数

输入 0-1 之间的浮点数,并且配合参数 svd_solver="full" ,表示希望降维后的可解释方差占原始数据的信息比例。



  • 瑗跨摐涔︾10绔-闄嶇淮PCA(涓鎴愬垎鍒嗘瀽)
    绛旓細闄嶇淮绠楁硶涓檷缁存寚鐨勬槸锛氶檷浣庣壒寰佺煩闃典腑鐗瑰緛鐨勬暟閲忋俿klearn 涓殑闄嶇淮绠楁硶鍦 decomposition 涓 妯″潡鐨勬湰璐ㄦ槸鐭╅樀鍒嗚В妯″潡銆 浠h〃鏄 SVD 濂囧紓鍊煎垎瑙c備富鎴愬垎鍒嗘瀽涓殑甯歌鐨勬ā鍧楋細楂樼骇鐭╅樀鍒嗚В 鍦ㄩ檷缁寸殑杩囩▼涓紝浼氬噺灏戠壒寰佺殑鏁伴噺锛屽垯鎰忓懗鐫闇瑕佸垹闄ゆ暟鎹細 鍑忓皯鐗瑰緛鏁伴噺銆佷繚鐣欏ぇ閮ㄥ垎鏈夋晥淇℃伅 濡傛灉涓涓壒寰佺殑...
  • 瀛﹀ソ瑗跨摐涔鍜岃姳涔︽病鏈夊畠鎬庝箞琛?
    绛旓細鎺屾彙杩欎簺鏁板宸ュ叿锛屽氨鑳介『鍒╅┚椹銆婅タ鐡滀功銆鍜屻婅姳涔︺嬶紝鍦ㄦ満鍣ㄥ涔犵殑棰嗗煙涓父鍒冩湁浣欙紝鎻愬崌涓撲笟绱犲吇鍜岀珵浜夊姏銆
  • 扩展阅读:培育西瓜 女科学家 ... 日本opc葡萄籽精华 ... 谢尔盖穿越事件 真的吗 ... 罗敏敏 北京生命科学 ... 维和警察遗体告别仪式 ... 降维打击江逸娱乐系统小说 ... 西瓜寒气重 是不是要少吃 ... 丁胖子讲师雷森 ... 夏天标配 空调西瓜说说 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网