概述
我有231个PDF文件,并希望将它们转换为字符串格式。随后,我会将每个这些字符串保存到一个txt文件中。
我能够为此创建一个代码(当我运行少量元素的代码时,我检查它是否有效),但是即使在10小时后,python也没有完成执行程序。
我使用“for循环”尝试了相同的代码,但它也太慢了。我怎么能使这个代码更快?
这是我的代码:from pdfminer.pdfinterp import PDFResourceManager,
PDFPageInterpreter#process_pdf
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Extract text
fp = open(pdfname, 'rb')
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()
# Cleanup
device.close()
sio.close()
return text
lista2 = [pdf_to_text(k) for k in lista1]
最后
以上就是怕黑水蜜桃为你收集整理的python的速度问题_Python列表的理解速度太慢的全部内容,希望文章能够帮你解决python的速度问题_Python列表的理解速度太慢所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复