每天五分钟机器学习：使用降维算法可以完成高维数据的压缩表示本文重点降维

312 阅读 0 评论 206 点赞

本文重点

前面我们学习了第一种无监督学习算法k-means，本章我们将学习另外一种无监督算法，称为降维算法。降维可以数据压缩，因而使用较少的计算机内存空间，也加快学习算法的运行。

现在有一个数据集，这个数据集中每个样本有多个特征，为了能够可视化，我们只显示其中的两个特征，一个特征是x1表示物体的长度，单位是厘米，另外一个特征x2也表示物体的长度，单位是英寸，那么我们可以认为特征x1和特征x2表示的是一个意思，所以这是一个非常冗余的数据，所以这两个特征我们应该只保留一个即可。

保留一个特征，这个需要降维，那么从二维降到一维意味着什么呢？

如图所示，降维的意思是希望找到这样的一条直线，将所有样本映射到这条线上，这样我们就可以测量这条线上每个样本的位置，我们想把这个新特征叫做z1，z1你能够表示样本在这条线上每个点的位置。

这样新特征z1就表示了对原始训练样本（特征x1、x2）的近似，这是因为我把所有的训练样本都映射到了这条直线上，这样我们就减少了一半的内存需求。上面我们演示的是将二维降维到一维，那么从三维降维到二维是一个什么样的过程呢ÿ

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。