python dataframe纵向合并_Python Dataframe合并问题

90 阅读 0 评论 60 点赞

我是靠谱客的博主害怕店员，最近开发中收集的这篇文章主要介绍python dataframe纵向合并_Python Dataframe合并问题，觉得挺不错的，现在分享给大家，希望可以做个参考。

用Pandas读取一个七百万条记录的微博爬虫文件，大小约1G。直接读入内存不足，于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样：

daysCount tweetsSum

userID

1294588034 5 305

2277435630 4 284

1985258823 6 265

1886370740 7 265

... ... ...

之后我尝试把这些dataframe合并，代码如下：

count_list=[]

for chunk in data:

...

count_list.append(count)

total_count = pd.concat(count_list, axis=0)

print(total_count.sort_value(by=['tweetsSum'],ascending=False))

结果发现汇总后的数据总是小于真正的数据量，不管是daysCount还是tweetsSum都是。而且调高chunksize，这两个值也会提高。

于是我猜想在concat的时候，遇到userID相同的，它只会取daysCount和tweetsSum的最大值，而不是值相加。

如果是这样的问题的话，那么该怎么合并dataframe，能让碰到userID相同的时候，让daysCount和tweetsSum相加呢？

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。