我是靠谱客的博主 怡然芒果,最近开发中收集的这篇文章主要介绍curse of dimension维数灾难,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

维数灾难:即高维情况下的过拟合


为了获得更精准的分类,可以添加更多特征。也许特征达到一定维度,我们会得到一个堪称完美的分类器?其实不然,因为当特征达到一定维度后,再去增加维度会导致分类器的性能下降,这便是经常提到的“curse of dimension

 

在得到一个性能优良的分类器前,增加特征便会有更好的分类效果,但事实却不是这样。其实在增加特征时,样本的密度会呈指数形式下降。假设1维中长度为5个单位,2维中会有25个单位 3维则会达到125个单位,样本数目是固定的,本例中为10,可见维度的增高,样本密度会呈指数级下降,通过添加特征导致的稀疏,使我们易于找到一个超平面来把样本分离,因为特征数目趋于无穷大时,样本被分类错误的概率会变得无穷小,然而当把样本由高维投影到低维时,便会有一个严重的问题。

 

使用太多的特征,分类器也会拟合训练数据中的噪声误差,并且不能很好的泛化到新来的测试数据,即分类器不能把对样本数据的分类能力很好的泛化到训练数据。事实上,通过添加增加特征把数据映射到高维空间来获得一个优良的分类器,仅仅相当于在低维空间中使用一个复杂的非线性分类器(kernel method)。在高维空间中,我们的分类器只拟合了稀疏的训练数据,数据可能带有误差,这样便会使分类器不能应用到一个更广阔的数据集,即缺乏泛化性。这个概念便是由维数引起的over-fitting

 

这种简单的分类效果会更好的泛化到训练集以外的数据,因为它并没有拟合只出现在训练数据中的例外状况。换句话说,使用较少的特征,维数灾难是可以避免的,不会过度拟合训练数据。

 

用一个值在(0-1)之间的特征来分类训练数据,如果我们想要覆盖特征空间的20%,我们便需要样本总数的20%,如果添加一个特征,在2维空间中,要覆盖特征空间的20%,我们便需要在每个维度上取样本的总数的45%,0.45^2=2),同理,3维空间中需要在每个维度上取58%  

http://blog.csdn.net/zbc1090549839/article/details/38929215

最后

以上就是怡然芒果为你收集整理的curse of dimension维数灾难的全部内容,希望文章能够帮你解决curse of dimension维数灾难所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部