降维 (Dimensionality Reduction)

180 阅读 0 评论 119 点赞

我是靠谱客的博主危机流沙，这篇文章主要介绍降维 (Dimensionality Reduction)，现在分享给大家，希望可以做个参考。

文章目录

- 1. 目标一：数据压缩
- 2. 目标二：数据可视化

1. 目标一：数据压缩

第二种类型的无监督学习问题，称为降维。有几个不同的的原因可能想要做降维。一是数据压缩，数据压缩不仅允许压缩数据，它也加快学习算法。

作为一种生动的例子，收集的数据集有许多特征:

在这里插入图片描述

假设未知两个的特征： $x_1$ :长度：用厘米表示； $x_2$ ：是用英寸表示同一物体的长度。

所以，这给了高度冗余表示，也许不是两个分开的特征 $x_1$ 和 $x_2$ ，这两个基本的长度度量，也许想要做的是减少数据到一维，只有一个数测量这个长度。这个例子似乎有点做作，这里厘米英寸的例子实际上不是那么不切实际的，两者并没有什么不同。

将数据从二维降至一维：
假使要采用两种不同的仪器来测量一些东西的尺寸，其中一个仪器测量结果的单位是英寸，另一个仪器测量的结果是厘米，希望将测量的结果作为机器学习的特征。现在的问题的是，两种仪器对同一个东西测量的结果不完全相等（由于误差、精度等），而将两者都作为特征有些重复，因而，希望将这个二维的数据降至一维。

从这件事情看到的东西发生在工业上的事。如果有几百个或成千上万的特征，往往容易失去需要的特征。有时可能有几个不同的工程团队，也许一个工程队给你二百个特征，第二工程队给你另外三百个的特征，第三工程队给你五百个特征，一千多个特征都在一起，它实际上会变得非常困难，去跟踪你知道的那些特征，你从那些工程队得到的。其实不想有高度冗余的特征一样。

在这里插入图片描述