卡狗项目学习记录 - Churning Customers Prediction

87 阅读 0 评论 58 点赞

我是靠谱客的博主动人蛋挞，最近开发中收集的这篇文章主要介绍卡狗项目学习记录 - Churning Customers Prediction，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

卡狗项目学习记录-Churning Customers Prediction

- 1. 数据预处理
- - 1.1 导入需要的包
  - 1.2 读取数据集
  - 1.3 数据分析
  - - 1.3.1 Customer_Age
    - - 1) matplotlib.pyplot柱状图
      - 2) plotly.graph_objs柱状图
      - 3) 分析结果
    - 1.3.2 Gender
    - - 1) matplotlib.pyplot饼图
      - 2) plotly.express饼图
      - 3) 分析结果
    - 1.3.3 Dependent_count
    - - 分析结果
    - 1.3.4 Education_Level
    - - 分析结果
    - 1.3.5 Marital_Status
    - - 分析结果
    - 1.3.5 Income_Category
    - - 分析结果
    - 1.3.6 Months_on_book
    - - 分析结果
    - 1.3.7 Card_Category
    - - 分析结果
    - 1.3.6 Total_Relationship_Count
    - 1.3.7 Months_Inactive_12_mon
    - 1.3.8 Contacts_Count_12_mon
    - 1.3.9 Credit_Limit
  - 1.4 数据处理

原链接及数据集：Bank Churn Data Exploration And Churn Prediction

1. 数据预处理

1.1 导入需要的包

import numpy as np  # linear algebra
import pandas as pd  # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as ex
import plotly.graph_objs as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from plotly.offline import plot
# 导入offline时只导入plot，不然会报iplot的错
# init_notebook_mode() 用这个会报错，注释掉了

sns.set_style('darkgrid')

from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score as f1
from sklearn.metrics import confusion_matrix
import scikitplot as skplt

plt.rc('figure', figsize=(18, 9))
from imblearn.over_sampling import SMOTE

其中有几行设置代码：

sns.set_style('darkgrid')
# 这个是用来设置seaborn主题的代码

seaborn主题：

darkgrid 黑色网格（默认）
whitegrid 白色网格
dark 黑色背景
white 白色背景
ticks 有刻度线的白色背景

plt.rc('figure', figsize=(18, 9))
# 这是设置输出图的宽高

1.2 读取数据集

c_data = pd.read_csv('./input/data/BankChurners.csv')
c_data = c_data[c_data.columns[:-2]]
# the author of this dataset says do not use the last tow columns
print(c_data)