机器学习之特征提取

227 阅读 0 评论 150 点赞

我是靠谱客的博主缥缈雪糕，这篇文章主要介绍机器学习之特征提取，现在分享给大家，希望可以做个参考。

我们生活在信息时代—数据获取更加容易、存储更加便宜。在1991年、据称每两个月信息的存储量就翻一倍。不幸的是，机器能够读取的信息量的增加、理解并运用信息的速度远远跟不上信息增加的步伐。机器学习提供了一套自动分析大规模数据的工具。

机器学习是一种能够自动提高本身预测效果的算法。机器学习的一项基础是特征提取(feature selection)。通过去除不相关数据和冗余数据，能够增加机器学习效率和效果，是大规模机器学习中必不可少的步骤。

特征选取，作为机器学习中一个前处理步骤，在降维、去除不相关数据，增加学习精度和提高结果可理解性方面非常有效。1970年以来，特征选取一直是一个非常活跃的研究领域，在很多领域的数据的总量和特征数方面都变得越来越大，比如基因工程、文本分类、客户关系管理等。但最近几年，随着数据维数的增加，现有的很多方法遇到了很大挑战。

特征选取是在原始特种选取一个子集，使得在一定评价标准下特征空间得到最优化减小。特征选取算法大致分为两类，过滤模型（fileter model）和包裹模型（wrapper model）。过滤模型依赖训练数据的整体特征来选取一些特征，不涉及任何学习算法。包裹模型需要预先定义学习算法用于特征选取，利用计算结果评价并决定选取哪些特征。对于每个新的特征子集，包裹模型需要学习一种假设（或者分类器），现在的趋势是包裹模型能够找到更好的特征选择效果，但同时存在的趋势是计算量远远超过过滤方法。一般认为，当特征数非常多时，考虑到计算效率，往往采用过滤模型方法。在这两类方法中，根据具体的评价函数、以及特征子集空间划分方法进一步分为多种算法。

在众多过滤模型中，不同的特征选取算法可以进一步分为两大类，特征权重算法和子集搜索算法，依据是是否单独地评价特征的好坏或。下面讨论这些算法的优劣。

特征权重算法分别给特征赋予权重，根据与目标概念的相关性排序。以Relief算法为例，它以两个特征的差异作为相关性判断标准，无法解决数据冗余问体，这也是这类方法的通病。

子集搜索法通过一定的标准搜索代表性特征子集，达到搜索条件时得到最优子集。现在许多评价方法显示可以去除不相关和冗余特征，包括一致性度量和相关性度量。这些方法计算量太大。

特征选取的本质是聚类，为了找到快速的特征选择办法，其效果必须是有效识别数据不相关性和冗余性，同时要求计算复杂度要低。从这个意义上讲，特征选取落脚在找到特征之间合适的相关性度量方法，以及基于这种度量的可行特征选取步骤。

大致有两种方法计算两组随机变量的相关性，一种是基于经典的线性相关，另一种是基于信息论、测试理论等。真是世界的特征对象很多都是非线性的，线性化度量方法会导致失真，另一个限制是需要计算所有特征所包含的全部值。

基于相关性的特征选取（correlation based feature selection, CFS）是针对标识量的方法，不需要任何特殊的数据变化，仅要提供一种两组变量的相关性即可。CFS是一种高度自动化的算法、不需要用户给定任何门槛值、特征的个数，尽管很容易整合（如果需要）。

-------------背景补充--------------------

人工智能包括两种人工学习方式。第一种是学习人类精神过程，目标是寻找算法把人脑的思维过程转化为计算机语言；第二种方法源于实用计算的立场，并没有宏伟的目标，它主要是开发能够从过去数据中学习的程序，这样，看着像是数据处理的一个分支。机器学习基本上可以概括为人工学习的第二种方法，并在50年代诞生以来发展迅速。机器学习主要关心概念学习（conceptlearning）和分类学习（classification learning），后者是前者的通用化。

学习如何区分对象是智能的一个典型特征，在心理和计算机科学的研究中非常重视。确定一组对象共同的“核心（core）”特征是它们所属类型的代表，这种工作在人类或计算机聚焦注意力时大量用到。执行分类并能学习分类的能力给予人类和计算机强大的决策能力，而这些决策的效率很大程度上取决于分类的工作。

在机器学习中，上述分类工作一般指有监督学习。有监督学习是预先定义一些类，目标是把样品对象赋予不同的类。与之相对应的无监督学习，即不需要预先定义类，目标是确定哪些对象属于同一类。

对于典型的有监督机器学习任务，数据由一组样品或实例表示，每个实例通过一组测量、特征（feature）和标签来表示它的类。特征往往分类两类：离散型和数值型。

典型的机器学习算法要求两组样品：训练样品和测试样品，学习算法从样品数据形成概念描述，概念描述汪汪指学习算法从数据推断出的知识或模型，不同的算法中知识的表示形式不同，比如决策树、概率性总结等。

机器学习常用的算法有：C4.5，K-Means算法，支持向量机（SVM），Apriori算法，最大期望算法，PageRank，AdaBoost，kNN算法，朴素贝叶斯（NaïveBayes），，CART（分类与回归树），

参考资料

Hall M A. Correlation-based feature selection formachine learning [D]. The University of Waikato, 1999.

Yu L, Liu H. Feature selection for high dimensionaldata: A fast correlation based filter solution [C] // ICML. 2003, 3: 856-863.

http://blog.csdn.net/aladdina/article/details/4141177