Python小工具：提取PDF表格中的指定内容到Excel1 思路2 详细代码

307 阅读 0 评论 203 点赞

我是靠谱客的博主甜蜜小鸭子，这篇文章主要介绍Python小工具：提取PDF表格中的指定内容到Excel1 思路2 详细代码，现在分享给大家，希望可以做个参考。

1 思路

首先找到Python关于PDF的相关包
通过库文件对PDF的每一页进行遍历
对PDF的每一个表格进行遍历
对表格中的每一项进行遍历，找到自己需要提取的那一项
通过if判断语句，对符合自己选择条件的内容进行输出
注意：这个无法提取扫描版PDF中的表格

2 详细代码

import xlwt
import pdfplumber
# 定义保存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("提取内容")
pdf_path = r'path.pdf'
pdf = pdfplumber.open(pdf_path)
i = 0
t = 0
for page in pdf.pages:
# 获取页面中的所有信息,从第一页开始遍历页面
for table in page.extract_tables():
# 获取页面的所有表格
for row in table:
# 遍历表格中的每一行，可以先不用判断语句，找到自己需要的内容的索引待用
for j in range(len(row)):
# 根据索引规律提取指定内容
if (i == t * 9 + 4) & (j == 7):
print("（" + str(i) + ',' + str(j) + "）")
# 去除其中的换行符
row[j] = row[j].replace('n', '')
sheet.write(t, 0, row[j])
print(row[j])
t = t + 1
i = i + 1
pdf.close()
workbook.save("result.xls")
print('写入成功!!!')