文章目录
- 一、数据集和资料
- 二、代码实现
- 三、剪枝参数取值
- 实现思路
- 常见参数
- 四、一些笔记
- Pandas
- `fillna()`函数
- `value_counts()`函数
- DataFrame操作
- 使用to_dict将pandas.DataFrame转换为Python中的字典列表
- sklearn 特征选择中的 DictVectorizer 类
- sklearn 特征选择中的 cross_val_score的方法
- 其他
一、数据集和资料
参考博客
数据集 提取码: 0i0v
训练集是标准的,泛化数据集是我手动添加的标注 只有20条
二、代码实现
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65# -*- coding: utf-8 -* import pandas as pd import numpy as np from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score from sklearn.tree import export_graphviz import matplotlib.pyplot as plt # 数据加载 train_data = pd.read_csv('train.csv') test_data = pd.read_csv('test.csv') # 数据探索 # print(train_data.info()) # print(train_data.describe()) # print(train_data.describe(include=['O'])) # print(train_data.head()) # print(train_data.tail()) # 数据清洗 # 使用平均年龄来填充年龄中的Nan值 train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) test_data['Age'].fillna(test_data['Age'].mean(),inplace=True) # 使用票价的均值填充票价中的Nan值 train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True) test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True) # 使用登录最多的港口来填充登录港口的nan值 # print(train_data['Embarked'].value_counts()) train_data['Embarked'].fillna('S', inplace=True) test_data['Embarked'].fillna('S',inplace=True) # 特征选择 features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features] test_labels = test_data['Survived'] dvec = DictVectorizer(sparse=False) train_features = dvec.fit_transform(train_features.to_dict(orient='record')) test_features = dvec.fit_transform(test_features.to_dict(orient='record')) # 构造ID3决策树 clf = DecisionTreeClassifier(criterion='entropy') # 构造CART决策树 #clf = DecisionTreeClassifier(criterion='gini') # 决策树训练 clf.fit(train_features, train_labels) # # 模型预测 & 评估 # test_features=dvec.transform(test_features.to_dict(orient='record')) # # 决策树预测 # pred_labels = clf.predict(test_features) # 得到决策树准确率 acc_decision_tree = round(clf.score(test_features, test_labels), 6) print(u'score准确率为 %.4lf' % acc_decision_tree) # 使用K折交叉验证 统计决策树准确率 print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, test_features, test_labels, cv=10))) #用学习曲线确定最优剪枝参数取值 test = [] for i in range(10): clf = DecisionTreeClassifier(max_depth=i+1,criterion="gini") clf.fit(train_features, train_labels) score = np.mean(cross_val_score(clf, test_features, test_labels, cv=10)) test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show() #可视化决策树 export_graphviz(clf, out_file="titanic_tree.dot" , feature_names=dvec.get_feature_names())
三、剪枝参数取值
实现思路
复制代码
1
2
3
4
5
6
7
8
9
10
11#用学习曲线确定最优剪枝参数取值 test = [] for i in range(10): clf = DecisionTreeClassifier(max_depth=i+1,criterion="gini") clf.fit(train_features, train_labels) score = np.mean(cross_val_score(clf, test_features, test_labels, cv=10)) test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()
常见参数
剪枝参数 max_depth
:
限制树的最大深度max_depth,超过设定深度的树枝全部剪掉。这个是用的最广的。
剪枝参数 min_impurity_decrease
:
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分支不会发生。(这个是课上讲的预剪枝)
剪枝参数 max_features
:
max_features限制分支时考虑的特征个数,超过限制个数的特征都会被舍弃。
剪枝参数 min_samples_split
:
限定一个结点必须要包含至少min_samples_split个训练样本,这个结点才允许被分支,否则分支就不会发生。
剪枝参数 min_samples_leaf
:
限定一个结点在分支后的每个子结点都必须包含至少min_samples_leaf个训练样本,否则分支就不会发生,或者,分支会朝着满足每个子结点都包含min_samples_leaf个样本的方向去
发生。
四、一些笔记
Pandas
fillna()
函数
用于缺失数据的填充
参考博客 这里
value_counts()
函数
用于确认数据出现的频率
参考博客 这里
DataFrame操作
原来还能这么操作 长见识了
复制代码
1
2
3features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features]
使用to_dict将pandas.DataFrame转换为Python中的字典列表
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14>>> df col1 col2 0 1 3 1 2 4 >>> [df.to_dict(orient='index')] [{0: {'col1': 1, 'col2': 3}, 1: {'col1': 2, 'col2': 4}}] >>> df.to_dict(orient='records') [{'col1': 1, 'col2': 3}, {'col1': 2, 'col2': 4}]
sklearn 特征选择中的 DictVectorizer 类
处理符号化的对象,将符号转成数字 0/1 进行表示。
复制代码
1
2
3
4
5from sklearn.feature_extraction import DictVectorizer dvec=DictVectorizer(sparse=False) # 不创建稀疏矩阵 # fit_transform 这个函数,它可以将特征向量转化为特征值矩阵 train_features=dvec.fit_transform(train_features.to_dict(orient='record'))
sklearn 特征选择中的 cross_val_score的方法
进行K 折交叉验证
复制代码
1
2
3
4from sklearn.model_selection import cross_val_score # 使用 K 折交叉验证 统计决策树准确率 print(u'cross_val_score 准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
其他
graphviz
的安装及环境变量配置
安装graphviz(运行stable_windows_10_cmake_Release_x64_graphviz-install-2.47.0-win64.exe,选择添加环境变量,重启Anaconda)- Titanic.py产生.dot文件之后,可以用如下graphviz命令生成PNG文件:
dot -Tpng titanic_tree.dot -o titanic_tree.png
graphviz
资源:这里 提取码:5ldw
最后
以上就是忧伤蜗牛最近收集整理的关于【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记的全部内容,更多相关【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复