【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记

92 阅读 0 评论 61 点赞

我是靠谱客的博主忧伤蜗牛，这篇文章主要介绍【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记，现在分享给大家，希望可以做个参考。

文章目录

一、数据集和资料
二、代码实现
三、剪枝参数取值
- 实现思路
- 常见参数
四、一些笔记
- Pandas
- - `fillna()`函数
  - `value_counts()`函数
  - DataFrame操作
  - 使用to_dict将pandas.DataFrame转换为Python中的字典列表
  - sklearn 特征选择中的 DictVectorizer 类
  - sklearn 特征选择中的 cross_val_score的方法
- 其他

一、数据集和资料

参考博客
数据集提取码： 0i0v
训练集是标准的，泛化数据集是我手动添加的标注只有20条

二、代码实现

复制代码

# -*- coding: utf-8 -*
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.tree import export_graphviz
import matplotlib.pyplot as plt
# 数据加载
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
# 数据探索
# print(train_data.info())
# print(train_data.describe())
# print(train_data.describe(include=['O']))
# print(train_data.head())
# print(train_data.tail())
# 数据清洗
# 使用平均年龄来填充年龄中的Nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的Nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
# 使用登录最多的港口来填充登录港口的nan值
# print(train_data['Embarked'].value_counts())
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
test_labels = test_data['Survived']
dvec = DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
test_features = dvec.fit_transform(test_features.to_dict(orient='record'))
# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 构造CART决策树
#clf = DecisionTreeClassifier(criterion='gini')
# 决策树训练
clf.fit(train_features, train_labels)
# # 模型预测 & 评估
# test_features=dvec.transform(test_features.to_dict(orient='record'))
# # 决策树预测
# pred_labels = clf.predict(test_features)
# 得到决策树准确率
acc_decision_tree = round(clf.score(test_features, test_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)
# 使用K折交叉验证 统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, test_features, test_labels, cv=10)))
#用学习曲线确定最优剪枝参数取值
test = []
for i in range(10):
clf = DecisionTreeClassifier(max_depth=i+1,criterion="gini")
clf.fit(train_features, train_labels)
score = np.mean(cross_val_score(clf, test_features, test_labels, cv=10))
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()
#可视化决策树
export_graphviz(clf, out_file="titanic_tree.dot" , feature_names=dvec.get_feature_names())

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
# -*- coding: utf-8 -*
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.tree import export_graphviz
import matplotlib.pyplot as plt
# 数据加载
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
# 数据探索
# print(train_data.info())
# print(train_data.describe())
# print(train_data.describe(include=['O']))
# print(train_data.head())
# print(train_data.tail())
# 数据清洗
# 使用平均年龄来填充年龄中的Nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的Nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
# 使用登录最多的港口来填充登录港口的nan值
# print(train_data['Embarked'].value_counts())
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
test_labels = test_data['Survived']
dvec = DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
test_features = dvec.fit_transform(test_features.to_dict(orient='record'))
# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 构造CART决策树
#clf = DecisionTreeClassifier(criterion='gini')
# 决策树训练
clf.fit(train_features, train_labels)
# # 模型预测 & 评估
# test_features=dvec.transform(test_features.to_dict(orient='record'))
# # 决策树预测
# pred_labels = clf.predict(test_features)
# 得到决策树准确率
acc_decision_tree = round(clf.score(test_features, test_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)
# 使用K折交叉验证 统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, test_features, test_labels, cv=10)))
#用学习曲线确定最优剪枝参数取值
test = []
for i in range(10):
clf = DecisionTreeClassifier(max_depth=i+1,criterion="gini")
clf.fit(train_features, train_labels)
score = np.mean(cross_val_score(clf, test_features, test_labels, cv=10))
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()
#可视化决策树
export_graphviz(clf, out_file="titanic_tree.dot" , feature_names=dvec.get_feature_names())

三、剪枝参数取值

实现思路

复制代码

1
2
3
4
5
6
7
8
9
10
11
#用学习曲线确定最优剪枝参数取值
test = []
for i in range(10):
clf = DecisionTreeClassifier(max_depth=i+1,criterion="gini")
clf.fit(train_features, train_labels)
score = np.mean(cross_val_score(clf, test_features, test_labels, cv=10))
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

常见参数

剪枝参数 max_depth：
限制树的最大深度max_depth，超过设定深度的树枝全部剪掉。这个是用的最广的。
剪枝参数 min_impurity_decrease：
min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分支不会发生。(这个是课上讲的预剪枝)
剪枝参数 max_features：
max_features限制分支时考虑的特征个数，超过限制个数的特征都会被舍弃。
剪枝参数 min_samples_split：
限定一个结点必须要包含至少min_samples_split个训练样本，这个结点才允许被分支，否则分支就不会发生。
剪枝参数 min_samples_leaf：
限定一个结点在分支后的每个子结点都必须包含至少min_samples_leaf个训练样本，否则分支就不会发生，或者，分支会朝着满足每个子结点都包含min_samples_leaf个样本的方向去
发生。

四、一些笔记

Pandas

`fillna()`函数

用于缺失数据的填充
参考博客这里

`value_counts()`函数

用于确认数据出现的频率
参考博客这里

DataFrame操作

原来还能这么操作长见识了

复制代码

1
2
3
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]

使用to_dict将pandas.DataFrame转换为Python中的字典列表

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>> df
col1
col2
0
1
3
1
2
4
>>> [df.to_dict(orient='index')]
[{0: {'col1': 1, 'col2': 3}, 1: {'col1': 2, 'col2': 4}}]
>>> df.to_dict(orient='records')
[{'col1': 1, 'col2': 3}, {'col1': 2, 'col2': 4}]

sklearn 特征选择中的 DictVectorizer 类

处理符号化的对象，将符号转成数字 0/1 进行表示。

复制代码

1
2
3
4
5
from sklearn.feature_extraction import DictVectorizer
dvec=DictVectorizer(sparse=False) # 不创建稀疏矩阵
# fit_transform 这个函数，它可以将特征向量转化为特征值矩阵
train_features=dvec.fit_transform(train_features.to_dict(orient='record'))

sklearn 特征选择中的 cross_val_score的方法

进行K 折交叉验证

复制代码

1
2
3
4
from sklearn.model_selection import cross_val_score
# 使用 K 折交叉验证 统计决策树准确率
print(u'cross_val_score 准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))

其他

graphviz的安装及环境变量配置
安装graphviz（运行stable_windows_10_cmake_Release_x64_graphviz-install-2.47.0-win64.exe，选择添加环境变量，重启Anaconda）
Titanic.py产生.dot文件之后，可以用如下graphviz命令生成PNG文件：
dot -Tpng titanic_tree.dot -o titanic_tree.png
graphviz资源：这里提取码：5ldw

最后

以上就是忧伤蜗牛最近收集整理的关于【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记的全部内容，更多相关【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：机器学习
浏览次数：92 次浏览
发布日期：2023-09-19 07:01:03
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_2_f0_12__7__2_4.html

【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记

文章目录

一、数据集和资料

二、代码实现

三、剪枝参数取值

实现思路

常见参数

四、一些笔记

Pandas

`fillna()`函数

`value_counts()`函数

DataFrame操作

使用to_dict将pandas.DataFrame转换为Python中的字典列表

sklearn 特征选择中的 DictVectorizer 类

sklearn 特征选择中的 cross_val_score的方法

其他

最后

评论列表共有 0 条评论

发表评论取消回复

【决策树】-泰坦尼克号实战一、数据集和资料二、代码实现三、剪枝参数取值四、一些笔记

文章目录

一、数据集和资料

二、代码实现

三、剪枝参数取值

实现思路

常见参数

四、一些笔记

Pandas

fillna()函数

value_counts()函数

DataFrame操作

使用to_dict将pandas.DataFrame转换为Python中的字典列表

sklearn 特征选择中的 DictVectorizer 类

sklearn 特征选择中的 cross_val_score的方法

其他

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

微信扫一扫：分享

`fillna()`函数

`value_counts()`函数

发表评论取消回复