《爱上潘大师》系列-你还记得那年的DataFrame吗

289 阅读 0 评论 191 点赞

我是靠谱客的博主自由狗，这篇文章主要介绍《爱上潘大师》系列-你还记得那年的DataFrame吗，现在分享给大家，希望可以做个参考。

2020，努力做一个无可替代的人！

作者 | 小一

全文共2327字，阅读全文需9分钟

写在前面的话

如果你还记得那年大明湖畔的xiaoyige，那你就应该来看看这篇文章

我们学的是技术，小一我写的可是技术文章，哪来那么多情啊爱啊的

今天的内容很重要的！

先复习一下前面的文章：

《爱上潘大师》系列-与Series的初次相见

可能有的同学不理解复习的意义，我简单说一下：

我写系列文章的时候都会先列好整个系列的大纲，甚至有时候几篇文章是同一天肝出来的。

这就造成有时候这一篇文章的概念会及其依赖上一篇文章，所以呢，花个两三分钟复习一下上一篇，你会更好理解这篇文章。

正文

今天介绍潘大师的另一种数据结构：Dataframe，一个表格型的数据结构。

对于Series 我们只用了一小节介绍，而Dataframe 可能会用三节内容，孰轻孰重应该都清楚吧

学习DataFrame，小一建议你最好和Excel表格联系起来

Excel 表格有行索引、列索引，有数据块，有数据的查找、替换、去重，有数据的透视，汇总，有不同表的数据匹配等等这些。

DataFrame 的初衷就是为了解决这些问题，简洁、易用的功能也是作者最初的愿景

所以，后面的系列文章，如果你对某个概念不是很理解，想一想 Excel 中是怎么表述的

创建 DataFrame

先来一个DataFrame 介绍三连

DataFrame 有行（索引）、有列（索引），可以看做是由一个个的Series 组成的字典。

DataFrame 每列可以是不同的值类型（数值、字符串、布尔值）

DataFrame 中的数据是以一个或多个二维块存放的

那DataFrame 都有哪些创建方式？

和NumPy 一样，DataFrame 创建方式也有很多种

常见的有：

通过二维ndarray 创建
通过字典创建
通过列表创建
通过另一个DataFrame 创建

下面简单介绍一下常用的，剩下的同学们自己拓展

通过二维ndarray创建DataFrame

创建一个二维的ndarray 数组，该数组即DataFrame 的数据集

# 通过二维ndarray创建DataFrame
arr_data = np.arange(12).reshape(3, 4)
df_data1 = pd.DataFrame(arr_data)

# 输出
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11

结果DataFrame 会自动加上行索引和列索引，和Series 的创建一样

那应该怎么显示声明行、列索引？

也和Series 的创建一样，在创建的时候手动指定就行

# 通过二维ndarray创建DataFrame
columns = ['one', 'two', 'three', 'four']
index = ['a', 'b', 'c']
# 显示指定行、列索引
df_data1 = pd.DataFrame(arr_data, columns=columns, index=index)

# 输出
   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11

记住列索引（想要成Excel 的列名）：columns

行索引（想象成Excel 的序号）：index

默认的行列索引都是从0开始

通过字典创建DataFrame

这里面的字典包括很多，比如：

数组、元祖、列表组成的字典
字典组成的字典（嵌套）
Series 组成的字典

只要数据是字典格式，就可以做数据集

字典的key作为DataFrame的列索引

# 通过字典创建DataFrame
dict_data = {
    'name': ['xiaoyi', 'xiaosi', 'xiaoqi'],
    'age': [11, 14, 17],
    'score': [95.5, 94.5, 97]
}
df_data2 = pd.DataFrame(dict_data)

# 输出
     name  age  score
0  xiaoyi   11   95.5
1  xiaosi   14   94.5
2  xiaoqi   17   97.0

列索引是字典的 key 值，行索引自动填充

当然字典里面的值数据类型你可以尽情变化，Series、元祖、列表等都是可以的

通过列表创建DataFrame

同样的，这里的列表类型也不止一种：

字典组成的列表
Series 组成的列表

# 通过列表创建DataFrame
list_data = [
    {'one': 1, 'two': 2},
    {'one': 1, 'two': 2, 'three': 4}
]
df_data3 = pd.DataFrame(list_data)

# 输出
   one  two  three
0    1    2    NaN
1    1    2    4.0

主要就是这三种创建方式，有些书上写的过于复杂，让人眼花缭乱

万变不离其宗，核心就是这三种

至于第四种通过其他DataFrame创建，就不多说了吧？

经常读我文章的同学要是会了前三种，还不会第四种？

不妨看一下NumPy 的数组创建？顺便反思一下？

索引对象

DataFrame 已经创建好了，但是索引还不太明白，是和Series的一样吗？

能想到Series，说明你差不多都知道是怎么回事了

构建Series 或者DataFrame 时，所用到的任何数据的标签都会被转换成Index对象

Index 对象是不可修改的，这样可以保证多个数据结构之间的安全共享

毕竟人家可是索引，你索引要是都一样了，那到底应该指向谁就说不清了

我们可以使用重新索引的方法 reindex

reindex 的用处相当大，我详细介绍一下参数

reindex(index, method, fille_value, limit, level, copy)

参数	说明
index	用作索引的新序列
method	插值（填充）方式，包括：ffill(前向填充值)、bfill(后向填充值)
fill_value	在重新索引的过程中，需要引入缺失值时使用的替代值
limit	前向或后向填充时的最大填充量

在DataFrame中，存在行、列索引，不同于Series 中只有单一索引。

所以DataFrame中 reindex 可以行、列索引都修改

先看单一索引

# 创建 Series
series_data = pd.Series([1, 2, 4, 5], index=['a', 'b', 'c', 'e'])
# 输出
a    1
b    2
c    4
e    5
dtype: int64

# 重新索引
series_data = series_data.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=-1)
# 输出
a    1
b    2
c    4
d   -1
e    5
dtype: int64

reindex 会根据新索引进行重排，如果某个索引值不存在，则使用 fille_value 的值进行填充

还记得前面说的DataFrame 中行、列索引分别是什么吗？

行索引：index （想象成Excel 中的序号）
列索引：columns （想象成Excel 中的列名）

df_data2
# 输出
     name  age  score
0  xiaoyi   11   95.5
1  xiaosi   14   94.5
2  xiaoqi   17   97.0

# 行、列重新索引
columns = ['name', 'age', 'score', 'score2']
index = [0, 1, 2, 3]
df_data2 = df_data2.reindex(index=index, columns=columns)
# 输出
     name   age  score  score2
0  xiaoyi  11.0   95.5     NaN
1  xiaosi  14.0   94.5     NaN
2  xiaoqi  17.0   97.0     NaN
3     NaN   NaN    NaN     NaN

对行、列都进行重新索引，索引值不存在的会用空值填充

索引很重要，是Pandas 数据模型的重要部分，但是我们了解上面的内容就够了，也没必要去深究它。