初步理解数据挖掘与机器学习
数据挖掘的基本步骤为以下几种:读取数据:爬虫异常检测:在将数据收集整理后按正态分布模型,借助数据可视化工具的帮助可以划分一个正常范围以及极端取值范围关联分析:通过对数据的分析找到变量之间的关联,建立函数模型。例如超市购物中购物车为一变量,不同商品为不同变量,如果在“购物车”中同时具有“面包” “牛奶” 两个变量的情况可以预测该购物者会趋向于“酸奶”变量,这便是一种关系聚类:在未知数据结构的情况下利用相似性原则将一类相似样本区分分类:在聚类的基础上建立具体函数(划分标准)将样本区分回归