我是靠谱客的博主 传统老鼠,最近开发中收集的这篇文章主要介绍数据挖掘建模过程,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.目标定义
明确本次的挖掘目标是什么,针对餐饮行业目标可定义为:
1)实现动态菜品智能推荐

2)对餐饮客户进行细分

3)综合考虑节假日、气候等影响因素,对菜品销量进行预测

4)基于餐饮大数据,优化新店选址
2.数据取样
抽取数据的标准:相关性;可靠性;有效性
任何时候都不能忽视数据质量,衡量数据质量的标准包括:资料完整无缺,各类指标齐全;数据准确无误,反映的都是正常状态下的水平。

对获取的数据可从中做抽样操作,常见的抽样方式如下:
1)随机抽样:在采用随机抽样方式时,数据集中每一组观察值都有相同的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观察值都有10%的机会被取到。
2)等距抽样:按照5%的比例对有100组观测值的数据集进行等距抽样,则100/5=20个数据被取出,那么等距抽样的方式是取第20、40、60、80、和第100组这5组观测值。

3)分层抽样:首先将样本总体分成若干层次,每个层次中的观测值都具有相同的被选用的概率,但对不同层次可设定不同的概率,这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。

4)按起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。

5)分类抽样:前述几种并不考虑抽样的具体取值,分类抽样依据某种属性的取值来选择数据子集,如按照地址区域分类。

3.数据探索

主要包括异常值分析、缺失值分析、相关分析、周期性分析等。

4.数据预处理

主要包括数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

5.挖掘建模

分析建模应用的问题是分类、聚类、关联规则、时序模式还是智能推荐?

6、模型评价

对分类与预测模型和聚类分析模型的评价方法是不同的,具体后面学习。
 

最后

以上就是传统老鼠为你收集整理的数据挖掘建模过程的全部内容,希望文章能够帮你解决数据挖掘建模过程所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(71)

评论列表共有 0 条评论

立即
投稿
返回
顶部