我是靠谱客的博主 负责跳跳糖,最近开发中收集的这篇文章主要介绍Python处理大文件,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

要将一个4G的文本文件切分开


读取文本文件大致有read() readline()readlines()三种

read()会将所有内容读入到一个字符串中

readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理

for line in f.readlines():	     # 1
	process(line)

其实在python2.2之后,文件也是一个对象,甚至可以这样处理

for line in f:			     # 2
	process(line)  

readline()每次读取一行

所以read()及readlines()效率高,但是需要内存能放的下

而后一种可以处理比较大的文件。

在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……

采用readline()

line = f.readline()                    #3
while line:
	process(line)
	line = f.readline()

同样只处理不到200M,很怪

最终,

BUFSIZE = 1024                        #4
lines = f.readlines(BUFSIZE)
while lines:
	for line in lines:
		process(line)
	lines = readlines(BUFSIZE)

全部数据处理完毕

但是将BUFSIZE改为10240,又只是处理了不到200M……

=====================================================================================================

自己新建了一个2G左右的文件,

采用readline()不断循环,可以

采用readlines()指定读取行数循环,可以

采用第1中第2中方法,提示内存不足

这才是正常的嘛

效率来说

采用第4种要比第3种快一些


---------------------------------------------------

估计源文件有错误,在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……

--------------------------------------------------



最后

以上就是负责跳跳糖为你收集整理的Python处理大文件的全部内容,希望文章能够帮你解决Python处理大文件所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部