我是靠谱客的博主 甜蜜小鸭子,最近开发中收集的这篇文章主要介绍Python小工具:提取PDF表格中的指定内容到Excel1 思路2 详细代码,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1 思路

  1. 首先找到Python关于PDF的相关包
  2. 通过库文件对PDF的每一页进行遍历
  3. 对PDF的每一个表格进行遍历
  4. 对表格中的每一项进行遍历,找到自己需要提取的那一项
  5. 通过if判断语句,对符合自己选择条件的内容进行输出
    注意:这个无法提取扫描版PDF中的表格

2 详细代码

import xlwt
import pdfplumber
# 定义保存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("提取内容")
pdf_path = r'path.pdf'
pdf = pdfplumber.open(pdf_path)
i = 0
t = 0
for page in pdf.pages:
# 获取页面中的所有信息,从第一页开始遍历页面
for table in page.extract_tables():
# 获取页面的所有表格
for row in table:
# 遍历表格中的每一行,可以先不用判断语句,找到自己需要的内容的索引待用
for j in range(len(row)):
# 根据索引规律提取指定内容
if (i == t * 9 + 4) & (j == 7):
print("(" + str(i) + ',' + str(j) + ")")
# 去除其中的换行符
row[j] = row[j].replace('n', '')
sheet.write(t, 0, row[j])
print(row[j])
t = t + 1
i = i + 1
pdf.close()
workbook.save("result.xls")
print('写入成功!!!')

最后

以上就是甜蜜小鸭子为你收集整理的Python小工具:提取PDF表格中的指定内容到Excel1 思路2 详细代码的全部内容,希望文章能够帮你解决Python小工具:提取PDF表格中的指定内容到Excel1 思路2 详细代码所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(49)

评论列表共有 0 条评论

立即
投稿
返回
顶部