概述
1 思路
- 首先找到Python关于PDF的相关包
- 通过库文件对PDF的每一页进行遍历
- 对PDF的每一个表格进行遍历
- 对表格中的每一项进行遍历,找到自己需要提取的那一项
- 通过if判断语句,对符合自己选择条件的内容进行输出
注意:这个无法提取扫描版PDF中的表格
2 详细代码
import xlwt
import pdfplumber
# 定义保存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("提取内容")
pdf_path = r'path.pdf'
pdf = pdfplumber.open(pdf_path)
i = 0
t = 0
for page in pdf.pages:
# 获取页面中的所有信息,从第一页开始遍历页面
for table in page.extract_tables():
# 获取页面的所有表格
for row in table:
# 遍历表格中的每一行,可以先不用判断语句,找到自己需要的内容的索引待用
for j in range(len(row)):
# 根据索引规律提取指定内容
if (i == t * 9 + 4) & (j == 7):
print("(" + str(i) + ',' + str(j) + ")")
# 去除其中的换行符
row[j] = row[j].replace('n', '')
sheet.write(t, 0, row[j])
print(row[j])
t = t + 1
i = i + 1
pdf.close()
workbook.save("result.xls")
print('写入成功!!!')
最后
以上就是甜蜜小鸭子为你收集整理的Python小工具:提取PDF表格中的指定内容到Excel1 思路2 详细代码的全部内容,希望文章能够帮你解决Python小工具:提取PDF表格中的指定内容到Excel1 思路2 详细代码所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复