Spark(六) Spark MLlib
一 Spark MLlib数据挖掘=机器学习+数据库环境Spark MLlib是基于海量数据的机器学习算法库,提供了分类、回归、聚类、协同过滤、降维等功能包:spark.ml基于的是DataFrame的数据抽象二 Spark MLlib的机器学习流水线1 transformer: 即训练得到的模型,通过transformer对数据进行预测方法: transform(DataFrame)2 Estimator:即算法方法:fit()方法进行模型训练Notice:DataFr.