我是靠谱客的博主 欣喜冰棍,最近开发中收集的这篇文章主要介绍[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.决策树

    决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

决策树的学习过程
1)特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。
2)决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止声场。
3)剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。

2.例子:

数据集:泰坦尼克号乘客数据:一共有1313条乘客信息,这个例子中取pclass,sex,age

 

代码:

#coding=utf-8
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer #特征转换器
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
from sklearn import tree
#1.数据获取
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#print titanic.head()
#print titanic.info()
X = titanic[['pclass','age','sex']]
#提取要分类的特征。一般可以通过最大熵原理进行特征选择
y = titanic['survived']
print X.shape
#(1313, 3)
#print X.head()
#print X['age']
#2.数据预处理:训练集测试集分割,数据标准化
X['age'].fillna(X['age'].mean(),inplace=True)
#age只有633个,需补充,使用平均数或者中位数都是对模型偏离造成最小的策略
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)
# 将数据进行分割

vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
#对训练数据的特征进行提取
X_test = vec.transform(X_test.to_dict(orient='record'))
#对测试数据的特征进行提取
#转换特征后,凡是类别型型的特征都单独独成剥离出来,独成一列特征,数值型的则不变
print vec.feature_names_
#['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']
#3.使用决策树对测试数据进行类别预测
dtc = DecisionTreeClassifier()
dtc.fit(X_train,y_train)
y_predict = dtc.predict(X_test)
#4.获取结果报告
print 'Accracy:',dtc.score(X_test,y_test)
print classification_report(y_predict,y_test,target_names=['died','servived'])
#5.将生成的决策树保存
with open("jueceshu.dot", 'w') as f:
f = tree.export_graphviz(dtc, out_file = f)

运行结果:

结果评价:

决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰的可解释性,也方便了模型的可视化。一般无需考虑对数据的量化甚至标准化。

3.决策树模型的可视化

1)以上的代码将生成文件jueceshu.dot,需要通过Graphviz(http://www.graphviz.org/)将python生成的决策树dot文件转化成pdf文件。

2)安装Graphviz后,需要设置环境变量:

 

添加系统环境变量 :建立变量名GRAPHVIZ_DOT ;值为安装的路径C:Program Files (x86)Graphviz2.34bindot.exe

 

 设置环境变量 在用户环境变量添加以下一个变量;建立变量名 GRAPHVIZ_INSTALL_DIR, 值为如C:Program Files (x86)Graphviz2.34

 

在系统环境变量 建立变量名PATH中添加Graphviz的bin目录路径,如C:Program Files (x86)Graphviz2.34bin

测试是否安装成功:在cmd中输入dot -version检验是否安装成功

 

3)通过cd指令切换到该目录下。

输入以下的指令:

dot -Tpdf jueceshu.dot -o output.pdf

 

生成的决策树:

 

转载于:https://www.cnblogs.com/youngsea/p/9330229.html

最后

以上就是欣喜冰棍为你收集整理的[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树的全部内容,希望文章能够帮你解决[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(65)

评论列表共有 0 条评论

立即
投稿
返回
顶部