我是靠谱客的博主 危机流沙,最近开发中收集的这篇文章主要介绍降维 (Dimensionality Reduction),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

    • 1. 目标一:数据压缩
    • 2. 目标二:数据可视化

1. 目标一:数据压缩

第二种类型的无监督学习问题,称为降维。有几个不同的的原因可能想要做降维。一是数据压缩,数据压缩不仅允许压缩数据,它也加快学习算法。

作为一种生动的例子,收集的数据集有许多特征:

在这里插入图片描述

假设未知两个的特征: x 1 x_1 x1:长度:用厘米表示; x 2 x_2 x2:是用英寸表示同一物体的长度。

所以,这给了高度冗余表示,也许不是两个分开的特征 x 1 x_1 x1 x 2 x_2 x2,这两个基本的长度度量,也许想要做的是减少数据到一维,只有一个数测量这个长度。这个例子似乎有点做作,这里厘米英寸的例子实际上不是那么不切实际的,两者并没有什么不同。

  1. 将数据从二维降至一维:
    假使要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,希望将测量的结果作为机器学习的特征。现在的问题的是,两种仪器对同一个东西测量的结果不完全相等(由于误差、精度等),而将两者都作为特征有些重复,因而,希望将这个二维的数据降至一维。

从这件事情看到的东西发生在工业上的事。如果有几百个或成千上万的特征,往往容易失去需要的特征。有时可能有几个不同的工程团队,也许一个工程队给你二百个特征,第二工程队给你另外三百个的特征,第三工程队给你五百个特征,一千多个特征都在一起,它实际上会变得非常困难,去跟踪你知道的那些特征,你从那些工程队得到的。其实不想有高度冗余的特征一样。

在这里插入图片描述

  1. 将数据从三维降至二维:
    这个例子中要将一个三维的特征向量降至一个二维的特征向量。过程是与上面类似的,将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征向量。

在这里插入图片描述

这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维。
.

2. 目标二:数据可视化

在许多及其学习问题中,如果能将数据可视化,便能寻找到一个更好的解决方案,降维可以做到。

在这里插入图片描述

假使有关于许多不同国家的数据,每一个特征向量都有50个特征(如GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的。使用降维的方法将其降至2维,便可以将其可视化了。

在这里插入图片描述

这样做的问题在于,降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去发现了。

最后

以上就是危机流沙为你收集整理的降维 (Dimensionality Reduction)的全部内容,希望文章能够帮你解决降维 (Dimensionality Reduction)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(51)

评论列表共有 0 条评论

立即
投稿
返回
顶部