我是靠谱客的博主 淡定水池,这篇文章主要介绍python处理百万级数据_百万数据在Excel、SQL与Python中的处理效率,现在分享给大家,希望可以做个参考。

摘要:

村长今天主要想跟大家分享测试一下100万行的数据在Excel、SQL与Python中的处理效率有多大的差异,如下图所示:我们根据销售日期和客户名称两个维度统计2020年1月和2月的销售金额,看一下如何分别在Excel、SQL与Python中处理,且处理效率如何。1、Excel处理函数公式:=SUMPRODUCT((TEXT(数据!$A$2:$A$1000001,"YYYY-MM")=A2)*(数据!$B$2:$B$1000001=B2),数据!$C$2:$C$1000001)

村长今天主要想跟大家分享测试一下100万行的数据在Excel、SQL与Python中的处理效率有多大的差异,如下图所示:

202008131597250290451388.jpg

我们根据销售日期和客户名称两个维度统计2020年1月和2月的销售金额,看一下如何分别在Excel、SQL与Python中处理,且处理效率如何。

1、Excel处理

202008131597250314263367.jpg

函数公式:

=SUMPRODUCT((TEXT(数据!$A$2:$A$1000001,"YYYY-MM")=A2)*(数据!$B$2:$B$1000001=B2),数据!$C$2:$C$1000001)

公式计算完成时间:2分20秒

2、SQL处理

202008131597250348753411.jpg

SQL语句:

SELECT TO_CHAR(XSRQ,'YYYY-MM') 销售月份,KHMC 客户名称,SUM(XSJE) 销售金额 FROM MY_SALE

WHERE 1=1

AND (TO_CHAR(XSRQ,'YYYY-MM') = '2020-01' OR TO_CHAR(XSRQ,'YYYY-MM') = '2020-02')

GROUP BY TO_CHAR(XSRQ,'YYYY-MM'),KHMC

ORDER BY TO_CHAR(XSRQ,'YYYY-MM'),INSTR('甲,乙,丙,丁,戊,己,庚,辛,壬,癸',KHMC)

SQL计算完成时间:0.574秒

3、Python处理

202008131597250364700293.jpg

Python代码:

numpy np

pandas pd

time

datetime

start = time.time()

df=pd.DataFrame(pd.read_excel())

df1 = df.loc[(df[] >= ) & (df[] <= ), [,,]]

df1[] = df[].apply(x: datetime.datetime.strftime(x,))

df2 = df1.groupby([,])[].sum()

end = time.time()

elapsed = (end - start)

(+(elapsed) + )

(df2)

代码执行完成时间:55秒

通过对100万数据的多维度汇总求和我们发现,在数据库中用SQL计算效率是最高的,用时仅不到1秒钟,Excel的计算效率是最低的,两分多钟,很多时候我们甚至会以为Excel已经崩溃了(电脑配置差一点的Excel已经挂掉了),而Python的计算效率也不高,55秒,这是因为Python需要从Excel表中读取100万行的数据然后再用读取到的数据进行分析,而且无论是Excel还是SQL其实在处理数据时都有很大的局限性,想要了解更多Excel、SQL与Python对于数据的处理方法,可以继续关注村长的微信公众号,让村长与你一起共同学习,共同进步!

202008131597250403880782.png

最后

以上就是淡定水池最近收集整理的关于python处理百万级数据_百万数据在Excel、SQL与Python中的处理效率的全部内容,更多相关python处理百万级数据_百万数据在Excel、SQL与Python中内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(52)

评论列表共有 0 条评论

立即
投稿
返回
顶部