我是靠谱客的博主 乐观冬日,最近开发中收集的这篇文章主要介绍python read_csv 分块多线程读_python - 读取大CSV并将其拆分为较小的块 - 堆栈内存溢出...,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我正在尝试使用python读取和分析大型csv文件(11.5 GB)。 然后使用Power BI在其周围创建一些视觉效果。 但是,每当我运行任何命令行甚至更改Power BI中的数据框时,每次更改之间大约需要20-30分钟。

列标题之一是DeviceID 。 我想将大CSV拆分为多个csv文件,以便每个文件都具有属于一个唯一DeviceID值的数据。

当前,单个Full.csv文件中的数据Full.csv如下所示:

DeviceID AreaName Longitude Latitude

12311 Dubai 55.55431 25.45631

12311 Dubai 55.55432 25.45634

12311 Dubai 55.55433 25.45637

12311 Dubai 55.55431 25.45621

12309 Dubai 55.55427 25.45627

12309 Dubai 55.55436 25.45655

12412 Dubai 55.55441 25.45657

12412 Dubai 55.55442 25.45656

运行代码后,单个Full.csv文件应产生3个csv文件: 12311.csv , 12309.csv和12412.csv ,每个文件看起来都像这样:

DeviceID AreaName Longitude Latitude

12311 Dubai 55.55431 25.45631

12311 Dubai 55.55432 25.45634

12311 Dubai 55.55433 25.45637

12311 Dubai 55.55431 25.45621

DeviceID AreaName Longitude Latitude

12309 Dubai 55.55427 25.45627

12309 Dubai 55.55436 25.45655

DeviceID AreaName Longitude Latitude

12412 Dubai 55.55441 25.45657

12412 Dubai 55.55442 25.45656

我读到,处理python中大文件的最佳方法是使用pandasql模块。 我可以使用pandsql实现上述功能吗?

谢谢

最后

以上就是乐观冬日为你收集整理的python read_csv 分块多线程读_python - 读取大CSV并将其拆分为较小的块 - 堆栈内存溢出...的全部内容,希望文章能够帮你解决python read_csv 分块多线程读_python - 读取大CSV并将其拆分为较小的块 - 堆栈内存溢出...所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部