Spark机器学习(二)-机器学习基础知识机器学习基础知识
机器学习基础知识这次主要是记录自己学习《Spark机器学习》这本书的学习过程,并不会长篇大论讲述机器学习的基础理论,这里简单点一下即可。机器学习流程机器学习流程主要可分为以下几部分: 数据收集 数据预处理 特征工程 模型训练 模型测试验证 模型部署上线 机器学习模型的分类可以分为两大类:监督学习:使用已标记数据来学习。“已标记”很关键,训练集必须是有标签的,不然就很难使用监督学习的模型。像经典的Kaggle的泰坦尼克号那个比赛就