数据分析数据挖掘（四）

300 阅读 0 评论 198 点赞

我是靠谱客的博主不安篮球，这篇文章主要介绍数据分析数据挖掘（四），现在分享给大家，希望可以做个参考。

请从上一个博客下载我们需要处理的数据。
一、复习常用的函数：

import pandas as pd
import numpy as np
import matplotlib as mt
#载入库
from pandas import Series,DataFrame
#载入模块
data=pd.read_csv(r'C:Users13056Desktoptips.csv')

print(data[['sex','day','time']].describe())
#获得数据
#         sex  day    time
#count    244  244     244  有多少条
#unique     2    4       2  有几种类型的
#top     Male  Sat  Dinner  出现最多的数据
#freq     157   87     176  出现最多的数据出现了多少次



#这里给大家讲一个函数，可能有些小伙伴这里不明白
print(data.loc[:,['sex']])
        sex
0    Female
1      Male
2      Male
3      Male
4    Female
..      ...
239    Male
240  Female
241    Male
242    Male
243  Female
表示所有的行sex列拿出来。:代表所有的

复习：咱不能只学不复习哈。会忘的。
索引
1.拿某一列，data['sex'],或者按照切片的方法data[0:3]。
2.按照地图的方法找： data.at[1,'time']拿到第一行time的数据，data.iat[1,1]拿第一行第一列的数据。这个方法只能拿一个数据。
3.按地图拿一块数据：data.loc[:,['sex']]拿所有行sex的数据，data.iloc[0:1,0:3]范围是第1行和1，2，3列。

le=DataFrame({
   
        'id':[1,2],
        'mas':['hello','car']
        })
re=DataFrame({
   
        'id':[1,2],
        'mas1':['no','train']
        })

合并的方法：
1.d3=pd.concat([d1,d2])把d1,d2合成一个序列
2.pd.merge(le,re,on='id')通过id合成了一个数据
   id    mas   mas1
0   1  hello     no
1   2    car  train

排序的方法：
1.data.sort_values('tip')根据tip的大小排序
2.data.sort_values(['tip','total_bill'])如果tip相同就按照total_bill排序
3.data.sort_values(['tip','total_bill'],ascending=[True,False])第一个是升序第二个是降序，ascending等于True是升序，等于False是降序。

分组：我们希通过sex当作指标把每组的数据进行相加。
data.groupby('sex').sum