概述
卡狗项目学习记录-Churning Customers Prediction
-
- 1. 数据预处理
-
- 1.1 导入需要的包
- 1.2 读取数据集
- 1.3 数据分析
-
- 1.3.1 Customer_Age
-
- 1) matplotlib.pyplot柱状图
- 2) plotly.graph_objs柱状图
- 3) 分析结果
- 1.3.2 Gender
-
- 1) matplotlib.pyplot饼图
- 2) plotly.express饼图
- 3) 分析结果
- 1.3.3 Dependent_count
-
- 分析结果
- 1.3.4 Education_Level
-
- 分析结果
- 1.3.5 Marital_Status
-
- 分析结果
- 1.3.5 Income_Category
-
- 分析结果
- 1.3.6 Months_on_book
-
- 分析结果
- 1.3.7 Card_Category
-
- 分析结果
- 1.3.6 Total_Relationship_Count
- 1.3.7 Months_Inactive_12_mon
- 1.3.8 Contacts_Count_12_mon
- 1.3.9 Credit_Limit
- 1.4 数据处理
原链接及数据集:Bank Churn Data Exploration And Churn Prediction
1. 数据预处理
1.1 导入需要的包
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as ex
import plotly.graph_objs as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from plotly.offline import plot
# 导入offline时只导入plot,不然会报iplot的错
# init_notebook_mode() 用这个会报错,注释掉了
sns.set_style('darkgrid')
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score as f1
from sklearn.metrics import confusion_matrix
import scikitplot as skplt
plt.rc('figure', figsize=(18, 9))
from imblearn.over_sampling import SMOTE
其中有几行设置代码:
sns.set_style('darkgrid')
# 这个是用来设置seaborn主题的代码
seaborn主题:
- darkgrid 黑色网格(默认)
- whitegrid 白色网格
- dark 黑色背景
- white 白色背景
- ticks 有刻度线的白色背景
plt.rc('figure', figsize=(18, 9))
# 这是设置输出图的宽高
1.2 读取数据集
c_data = pd.read_csv('./input/data/BankChurners.csv')
c_data = c_data[c_data.columns[:-2]]
# the author of this dataset says do not use the last tow columns
print(c_data)
用pandas.csv_read()读取csv文件为Dataframe(数据帧)
数据集的提供者说最好忽略最后两列数据,所以只取到[:-2]
1.3 数据分析
然后就可以开始分析各个特征值了,Attrition_Flag是我们要预测的标签,所以从他后面的第一个特征Customer_Age往后分析
1.3.1 Customer_Age
1) matplotlib.pyplot柱状图
import matplotlib.pyplot as plt
plt.hist(c_data['Customer_Age'], bins
最后
以上就是动人蛋挞为你收集整理的卡狗项目学习记录 - Churning Customers Prediction的全部内容,希望文章能够帮你解决卡狗项目学习记录 - Churning Customers Prediction所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复