机器学习——降维

195 阅读 0 评论 129 点赞

我是靠谱客的博主外向野狼，这篇文章主要介绍机器学习——降维，现在分享给大家，希望可以做个参考。

机器学习——降维

- 线性降维-主成分分析PCA
- 损失函数
- SVD与PCoA
- p-PCA
- 小结

降维的思路来源于维度灾难的问题，我们知道n维球的体积为：

CR^n

那么在求体积与边长为

2 R

的超立方体比值为：

limlimits_{nrightarrow0}frac{CR^n}{2^nR^n}=0

这就是所谓的维度灾难，在高维数据中，主要样本都分布在立方体的边缘，所以数据集更加稀疏。（因为，维度越高的球，靠近边缘的空间越大，如果数据符合均匀分布的话）
维度的算法分为：

直接降维，特征选择
线性降维，PCA，MDS等
分线性，流行包括lsomap,LLE
为了方便，我们首先将协方差矩阵写成中心化的形式：
$S=frac{1}{N}sumlimits_{i=1}^N(x_i-overline{x})(x_i-overline{x})^T\ =frac{1}{N}(x_1-overline{x},x_2-overline{x},cdots,x_N-overline{x})(x_1-overline{x},x_2-overline{x},cdots,x_N-overline{x})^T\ =frac{1}{N}(X^T-frac{1}{N}X^Tmathbb{I}_{N1}mathbb{I}_{N1}^T)(X^T-frac{1}{N}X^Tmathbb{I}_{N1}mathbb{I}_{N1}^T)^T\ =frac{1}{N}X^T(E_N-frac{1}{N}mathbb{I}_{N1}mathbb{I}_{1N})(E_N-frac{1}{N}mathbb{I}_{N1}mathbb{I}_{1N})^TX\ =frac{1}{N}X^TH_NH_N^TX\ =frac{1}{N}X^TH_NH_NX=frac{1}{N}X^THX$
这个式子利用了中心矩阵H的对称性，这也是一个投影矩阵。

线性降维-主成分分析PCA

损失函数

主成分分析中，我们的基本型想法是将所有数据投影到一个子空间中，从而达到降维的目标，为了寻找这个子空间，我们基本想法是：

所有数据在子空间中更为分散
损失的信息最小，即：在补空间的分量少
原来的数据很有可能各个维度之间是相关的，于是我们希望找到一组p个新的线性无关的单位基 $mu_i$ ，降维就是取其中的q个基。于是对于一个样本 $x_i$ ，经过这个坐标变换后：
$hat{x_i}=sumlimits_{i=1}^p(u_i^Tx_i)u_i=sumlimits_{i=1}^q(u_i^Tx_i)u_i+sumlimits_{i=q+1}^p(u_i^Tx_i)u_i$
对于数据集来说，我们首先将其中心化然后再去上面的式子的第一项，并使用其系数的平方平均作为损失函数并最大化：
$J=frac{1}{N}sumlimits_{i=1}^Nsumlimits_{j=1}^q((x_i-overline{x})^Tu_j)^2\ =sumlimits_{j=1}^qu_j^TSu_j , s.t. u_j^Tu_j=1$
由于每个基都是线性无关的，于是每一个 $mu_j$ 的求解可以分别进行，使用拉个朗日乘子法：
$mathop{argmax}_{u_j}L(u_j,lambda)=mathop{argmax}_{u_j}u_j^TSu_j+lambda(1-u_j^Tu_j)$
于是：
$Smu_j=lambdamu_j$
可见，我们需要的基就是协方差矩阵的特征向量。损失函数最大取在本征值前q个最大值。

SVD与PCoA

下面使用实际训练时常常使用的SVD直接求得这个q个本征矢。
对中心化后的数据集进行奇异值分解：
$HX=USigma{V^T},U^TU=E_N,V^TV=E_p,Sigma:Ntimes{P}$
于是：
$S=frac{1}{N}X^THX=frac{1}{N}X^TH^THX=frac{1}{N}VSigma^TSigma{V^T}$
因此，我们直接对中心化后的数据集进行SVD，就可以得到特征值和特征向量V，在新坐标系中的坐标就是：
$H X . V$
由上面的推导，我们也可以得到另一种方法PCoA主坐标分析，定义并进行特征值分解：
$T=HXX^TH=USigmaSigma^TU^T$
由于：
$TUSigma=USigma(Sigma^TSigma)$
于是可以直接得到坐标。这两种方法都可以得到主成分，但是由于方差矩阵是 $p \times p$ 的，而T是 $N \times N$ 的，所以对样本量较少的时候可以采用PCoA的方法。

p-PCA

下面从概率的角度对PCA进行分析，概率方法也叫p-PCA。我们使用线性模型，类似之前LDA，我们选定一个方向，对原数据 $xinmathbb{R}^p$ ，降维后的数据为 $zinmathbb{R}^q,q<p$ 。降维通过一个矩阵变换（投影）进行：
$zsimmathcal{N}(mathbb{O}_{q1},mathbb{I}_{qq})\ x=Wz+mu+varepsilon\ varepsilonsimmathcal{N}(0,sigma^2mathbb{I}_{pp})$
对于这个模型，我们可以使用期望-最大（EM）的算法进行学习，在进行推断的时候需要求得 $p (z ∣ x)$ ，推断的求解过程和线性高斯模型类型。
$p(z|x)=frac{p(x|z)p(z)}{p(x)}\ mathbb{E}[x]=mathbb{E}[Wz+mu+varepsilon]=mu\ Var[x]=WW^T+sigma^2mathbb{I}_{pp}\ Longrightarrow p(z|x)=mathcal{N}(W^T(WW^T+sigma^2mathbb{I})^{-1}(x-mu),mathbb{I}-W^T(WW^T+sigma^2mathbb{I})^{-1}W)$