数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)
数据挖掘过程和步骤问题定义数据采集数据预处理(数据清洗:数据缺失点补充、离群点异常点检测、重复数据监测等)集成:变换:数据类型变换(离散、连续)、标准化(z_score)、映射(0-1),规约:独热编码、ordinal)建立模型评估和解释知识应用关联算法Apriori算法回归算法线性回归逻辑回归分类算法逻辑回归二分类softmax多分类SVM算法:寻找支持向量,由此构造出的分类器可以最大化类与类的间隔基于决策树:ID3 算法、C4.5 算法(信息增益率)、C5.0算法