机器学习——数据清洗,特征选择
数据清洗的方法:设置阈值去掉异常值随机森林预测去掉点的数值加进去onehot编码(不适用于决策树和随机森林):先将一个属性分成几个类别然后再将样本的数据变成矩阵01,1表示其所在类别会导致特征数增多数据清洗代码实现import numpy as npimport pandas as pdfrom fuzzywuzzy import fuzzfrom fuzzywuzzy import processdef enum_row(row): print row['state']