概述
我正在尝试使用python读取和分析大型csv文件(11.5 GB)。 然后使用Power BI在其周围创建一些视觉效果。 但是,每当我运行任何命令行甚至更改Power BI中的数据框时,每次更改之间大约需要20-30分钟。
列标题之一是DeviceID 。 我想将大CSV拆分为多个csv文件,以便每个文件都具有属于一个唯一DeviceID值的数据。
当前,单个Full.csv文件中的数据Full.csv如下所示:
DeviceID AreaName Longitude Latitude
12311 Dubai 55.55431 25.45631
12311 Dubai 55.55432 25.45634
12311 Dubai 55.55433 25.45637
12311 Dubai 55.55431 25.45621
12309 Dubai 55.55427 25.45627
12309 Dubai 55.55436 25.45655
12412 Dubai 55.55441 25.45657
12412 Dubai 55.55442 25.45656
运行代码后,单个Full.csv文件应产生3个csv文件: 12311.csv , 12309.csv和12412.csv ,每个文件看起来都像这样:
DeviceID AreaName Longitude Latitude
12311 Dubai 55.55431 25.45631
12311 Dubai 55.55432 25.45634
12311 Dubai 55.55433 25.45637
12311 Dubai 55.55431 25.45621
和
DeviceID AreaName Longitude Latitude
12309 Dubai 55.55427 25.45627
12309 Dubai 55.55436 25.45655
和
DeviceID AreaName Longitude Latitude
12412 Dubai 55.55441 25.45657
12412 Dubai 55.55442 25.45656
我读到,处理python中大文件的最佳方法是使用pandasql模块。 我可以使用pandsql实现上述功能吗?
谢谢
最后
以上就是乐观冬日为你收集整理的python read_csv 分块多线程读_python - 读取大CSV并将其拆分为较小的块 - 堆栈内存溢出...的全部内容,希望文章能够帮你解决python read_csv 分块多线程读_python - 读取大CSV并将其拆分为较小的块 - 堆栈内存溢出...所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复