大数据分析与应用(中级) 数据预处理与特征工程一、数据预处理可以包括那些操作二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么?三、回顾数据标准化及归一化原理,简述数据标准化及归一化的优势 四、一般业务会存在什么样的数据质量问题五、针对不同数据质量问题,采用什么样的数据手段对数据进行数据清洗六、思考特征工程所包含的内容与步骤
数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,就需要用到数据预处理技术。数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,保证了后期数据分析工作的质量和效率。该项工作包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗。基于预处理后的数据从数据分析的需求出发,构建一个描述数据的特征模型,为后续的数据分析做好准备。 从本质上来说,特征工程是一项工程活动,即通过一系列的方法和操作流程,最大限度地从原始数据中提取有用、有意义的特征以供数据分析算法和模型使用,其直接影响了数据