概述
不确定是否已经太晚了,但它来了。
我看到你正在内存中加载2个数组,包含完整的文件。如果你说它们各自大约3 GB,那就是尝试在RAM中填充6 GB并且可能进入交换。
此外,即使您成功加载文件,您也在尝试~L1xL2字符串比较(L1和L2是行数)。
我已经在1.2 GB(330万行)中运行以下代码,并在几秒钟内完成。它使用字符串哈希,并且只在RAM中加载一组L1 integer32。
诀窍是在这里完成的,在将hashstring函数应用于文件中的每一行之后创建一个set()(除了标题,你似乎要添加到输出中)。file1 = set(map(hashstring, f1))
请注意我将文件与自身进行比较(f2加载与f1相同的文件)。如果有帮助,请告诉我。from zlib import adler32
def hashstring(s):
return adler32(s.encode('utf-8'))
with open('haproxy.log.1', 'r') as f1:
heading = f1.readline()
print(f'Heading: {heading}')
print('Hashing')
file1 = set(map(hashstring, f1))
print(f'Hashed: {len(file1)}')
with open('updates.log', 'w') as outFile:
count = 0
outFile.write(heading)
with open ('haproxy.log.1', 'r') as f2:
for line in f2:
if hashstring(line) not in file1:
outFile.write(line)
count += 1
if 0 == count % 10000:
print(f'Checked: {count}')
最后
以上就是感动发卡为你收集整理的python可以处理特别大的数据文件吗_Python 3.7:对大型数据文件进行性能调优比较...的全部内容,希望文章能够帮你解决python可以处理特别大的数据文件吗_Python 3.7:对大型数据文件进行性能调优比较...所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复