SparkMllib原理与架构简介
1. SparkMllib介绍MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:五大特性:1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法2-特征化:特征抽取、特征转换、特征选择、特征降维3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联4-持久化Persistence:保存模型,保存管道如何理解保存模型?原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在