机器学习数据分析——数据特征选定
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,特征过程的本质就是一项工程活动,目的是最大限度地从原始数据中提取合适的特征,以供算法和模型使用。特征处理是特征工程的核心部分,scikit-leam提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维等。以下介绍四个数据特征选择的方法:单变量特征选定、递归特征消除、主要成分分析、特征的重要性。特征选定特征选定是一个流程,能够选择有助于提高预测结果准确度的特征数据,或者有助于发现我们感兴趣的输出结果的特征数据。如果数据