pandas中DataFrame的stack()、unstack()和pivot()方法的对比

339 阅读 0 评论 224 点赞

我是靠谱客的博主烂漫仙人掌，这篇文章主要介绍pandas中DataFrame的stack()、unstack()和pivot()方法的对比，现在分享给大家，希望可以做个参考。

pandas中，这三种方法都是用来对表格进行重排的，其中stack()是unstack()的逆操作。某种意义上，unstack()方法和pivot()方法是很像的，主要的不同在于，unstack()方法是针对索引或者标签的，即将列索引转成最内层的行索引；而pivot()方法则是针对列的值，即指定某列的值作为行索引，指定某列的值作为列索引，然后再指定哪些列作为索引对应的值。因此，总结起来一句话就是：unstack()针对索引进行操作，pivot()针对值进行操作。但实际上，两者在功能往往可以互相实现。

unstack(self, level=-1, fill_value=None)、pivot(self, index=None, columns=None, values=None，对比这两个方法的参数，这里要注意的是，对于pivot()，如果参数values指定了不止一列作为值的话，那么生成的DataFrame的列索引就会出现层次索引，最外层的索引为原来的列标签；unstack()没有指定值的参数，会把剩下的列都作为值，即把剩下的列标签都作为最外层的索引，每个索引对应一个子表。

pivot()方法其实比较容易理解，就是指定相应的列分别作为行、列索引以及值。下面我们通过几张原理图详细说明stack()和unstack()，最后再通过一个具体的例子来对比stack()、unstack()和pivot()这三种方法。

先看stack()，如图。stack()是将原来的列索引转成了最内层的行索引，这里是多层次索引，其中AB索引对应第三层，即最内层索引。

再看unstack()，如图。显然，unstack()是stack()的逆操作，这里把最内层的行索引还原成了列索引。但是unstack()中有一个参数可以指定旋转第几层索引，比如unstack(0)就是把第一层行索引转成列索引，但默认的是把最内层索引转层列索引。

最后，我们在看一个具体的例子。首先我们构造一个如下图的DataFrame对象，现在目的是要把ticker列作为行索引，tradeDate列作为列索引，closeIndex作为值，生成一个新的表格。这可以通过unstack()和pivot()分别实现，我们先看unstack()如何实现。

我们之前说过，unstack()是针对索引的，因此，我们需要先把ticker和tradeDate这两列的值设置为索引，然后才能对其进行操作，代码如下。利用DataFrame的set_index()方法，并把需要作为index的两列标签的列表作为参数传递给这个方法，就可以把这两列设置为行索引。

设置成行索引后，我们可以对这个对象用unstack()方法，默认把最内层转为列索引，代码如下。如图输入的结果，已经实现了我们目的，其中closeIndex作为列的最外层索引出现，如果我们再加一条代码df_daily_industry_symbol.set_index(['tradeDate','ticker']).unstack()['closeIndex']，则就会得到closeIndex索引下的表格。

最后，我们看下如何用pivot()实现这个目的，代码如下。显然，用pivot()方法简单很多，可以直接通过设置相关参数实现。但是这里由于ticker和tradeDate最初就是值而不是索引，索引可以直接这样一行代码解决，若原数据中，这两列本来就是多层次的索引，那么用unstack()就会简单很多，因此，用什么方法取决于原数据的构成。