概述
高维空间中的高斯分布和随机投影
高维空间中的高斯分布和随机投影
(一)在高维球体表面产生均匀分布点的方法
我们来考虑一个采样问题,就是怎样在高维单位球体的表面上均匀的采样。首先,考虑二维的情况,就是在球形的周长上采样。我们考虑如下方法:第一,先在一个包含该圆形的外接正方形内均匀的采样;第二,将采样到的点投影到圆形上。具体地说就是,第一,先独立均匀的从区间 [−1,1] (我们假设圆形跟正方形的中心点都在原点)内产生两个值组成一个二维的点 (x1,x2) ;第二,将该二维点投影到圆形上。例如,如下图所示,如果我们产生点是图中的A,B两点,那么投影到圆形上就是C点,如果产生的是点D,那么投影到圆形上就是E点。但是,用这样的方法得到点在圆形上并不是均匀分布的,比如产生C点的概率将大于产生E点概率,因为可以投影到C点对应的那条直线比E点对应的那条直线要长。解决的办法是去掉圆形外面的点,也就是如果我们首先产生的点在圆形外的话(比如点B),那么我们就丢弃该点,重新在产生,这样的话产生的点在圆形上是均匀分布的。
那么,我们能否将此方法扩展到高维的情况下呢?答案是不行的。因为在高维的情况下球与正方体的体积比将非常非常小,几乎接近于零。也就是我们在正方体内产生的点几乎不可能落到球体内部,那么也就无法产生有效的点。那么,在高维的球体上,我们应该怎样才能产生一个均匀分布与球体表面的点呢?答案是利用高斯分布。即将上述第一步改成:以均值为零方差为1的高斯分布独立地产生
d
个值,形成一个
那么 p(x~)=1(2π)d2e−12 ,为常数,说明产生的每个点的概率都一样,即均匀分布。这个结论在证明随机投影定理时会用到。
(二)高维空间下的高斯分布性质
高斯分布是概率统计里面最常见也是最有用的分布之一,本文主要关注高斯分布在高维情况下的一些特性。首先,对于低维高斯分布来说,其概率质量主要集中在均值附近。那么在高维情况下,这样的情况是否还是真的呢?一个均值为零,协方差为 σ2I 的 d 为高斯分布的密度函数为:
当 σ=1 时,由于单位球在高维的情况下的体积趋近于零,所以以均值点为原点的单位球所累计的概率质量也接近于零。事实上,只有当这个球的半径增长到 d√ 时,才会有相对比较大的概率质量。更准确的说,在距离原点 d√ 附近的环内占据了高斯分布的主要概率质量。
对于一个服从均值为零协方差为
σ2I
的
d
维的高斯分布的向量
首先,我们来计算在高斯分布中距离原点为
r
的那个“面”对应的概率质量是多少?也就是我们要计算高斯分布在半径为
令
将 f(r) 在 d−1−−−−√ 处二阶泰勒展开:
其中
ζ
介于
d−1−−−−√
与
r
之间。由于
所以 g(r)=ef(r)≤g(d−1−−−−√)exp(−12(r−d−1−−−−√)2) 。这样我们就可以计算 a 的上界:
接下去,计算
b
的下界。在子区间
因此, g(r)≥exp(f(d−1−−−−√))exp(−c24)=g(d−1−−−−√)exp(c24) ,故:
利用
a
的上界以及
所以
aa+b=1b/a+1≤11+c24exp(c24)≤4c2exp(−c24)
。当
c
取较大时,
引理一 在均值为零协方差为单位阵的
d
维高斯分布中,区间I以外所占的概率质量不超过
(三)随机投影定理
再讲随机投影定理之前,我们先来介绍一下如何利用随机投影来降维。对于一个高维的数据
x,y
(假设其维度为
n
),我们可以首先产生一个随机矩阵
如果我们将一个
n
维的单位向量投影到
定理一 令
v
为
证明:如果我们直接从定理那个角度去证明的话,那么这个证明将比较困难(因为我们必须通过选
k
个基去刻画这个随机子空间)。换个角度去想这个问题,如果我们固定住子空间,然后随机的选一个单位向量,然后将这个向量投影到子空间中去,得到投影后向量的分布是否是一样的?令
先大概说一下证明的思路:要证 P(|∥w∥2−kn|≥ϵkn)≤4e−kϵ264 ,即证
要证明上式,我们分别证明概率中两个不等式成立的上界,然后在使用联合界得到最终的上界。由于这两个不等式的证明过程相似,接下去我们尽针对其中一个不等式进行证明,另外一种情况类似。
我们要证明的是概率
P[∥z~∥2≤βkn]
,其中
β=1−ϵ
。另外,我们在前面部分说过随机(如果没有特别指出,这里的随机都是指均匀随机)选择一个
n
维单位向量(即在单位球表面随机选点)可以等价于独立随机的选择
上式对任何
t
都成立。然后利用Markov不等式(形式类似于
现在我们来求 E[tx2] ,其中 x 服从均值零方差为1的高斯分布:
将式子 ??? 代入式子 ??? 得:
由于上式对任意的
t
都成立,所以我们可以通过求
其中最后一个不等式是因为 ln(1−ϵ)≤−ϵ−ϵ22 对任意0<epsilon<1成立。
对于另外一种情况,我们也可以用同样的方法证得: P[∥z~∥2≥(1+ϵ)kn]≤exp(−kϵ24) 。最后,由联合界可使定理得证。
注:书本中关于这个定理的证明有错,这里的证明是根据作者的课堂笔记(http://www.cs.cornell.edu/courses/cs4850/2010sp/Scribe%20Notes%5CLecture05.pdf)整理而得的。
利用上述定理,我们就可以证明随机投影中重要的引理,称为Johnson-Lindenstrauss Lemma.
引理二. Johnson-Lindenstrauss Lemma
对任意的0<epsilon<1以及任意的整数
m
,若
在证明这个引理之前,我们先来说说这个定理的意义。定理说的是,对于任意一个样本大小为 m 的集合,如果我们通过随机投影将其维度降到一个合适的范围内,那么我们将以较高的概率保证投影后的数据点之间的距离信息变化不大。这样我们在做K-mean之类的算法时,就可以先将高维度的数据利用随机投影进行降维处理,然后在执行算法。
证明:令
所以,如果 k≥4ln(m)ϵ2 ,则 2exp(−kϵ24)≤1m4 。也就是说对于每一对点,式子 ??? 左边的上界小于 1m4 ,那么对于集合P中的所有点对(总共约为 m2 对)采用联合界可得,所有点对中至少有一对满足式子 |∥z~∥2−kn∥z∥2|≥ϵkn∥z∥2 的概率小于 1m2 。换句话说,所有点都不满足式子 |∥z~∥2−kn∥z∥2|≥ϵkn∥z∥2 的概率将大于 1−1m2 。这就证明了式子 ??? 。
最后
以上就是粗心冬天为你收集整理的高维空间中的高斯分布和随机投影的全部内容,希望文章能够帮你解决高维空间中的高斯分布和随机投影所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复