自动化办公神器！用Python批量识别发票并录入到Excel表格！可以讨财务女神开心了！

60 阅读 0 评论 40 点赞

我是靠谱客的博主直率季节，最近开发中收集的这篇文章主要介绍自动化办公神器！用Python批量识别发票并录入到Excel表格！可以讨财务女神开心了！，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

故事的开始

今天去财务拿上个月的工资条核对！发现女神一脸闷闷不乐！好像天要塌下来一样！我对完工资就问：女神，你咋不开心，不是马上就要发工资了嘛！女神说：老板刚给我派了个任务，让我把上个月这个月的发票都做一个Excel表格！今天下班前给他！这么多发票，我做到明天也归类不了啊！这不是强人所难嘛，今天都不用下班了！我说：那我给你十分钟搞定它，下班了你可得请我吃个大餐，毕竟这种拉近距离的机会可不多！当然她肯定是一脸不信的！那我就让我的技术来征服她！

正文开始

这里有以四张发票为例，将发票图片放到pic文件夹下。

随便打开一张发票

这些都是我在网上找的发票啊肯定不会把公司的发票拿出来做教程的！那我估计明天和财务小姐姐就都得卷铺盖滚蛋了！那还不恨死我啊！哈哈哈

提取目标：金额、名称、纳税人识别号、开票人。

最后将每一张发票的这四个内容保存到excel中：

需要用到得库

需要用到的库如下：

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安装的命令如下：

pip install pyocr
pip install cnocr

安装还是非常简单的！

发票中含有中文内容，我们需要对图片中的中文进行识别，那么 cnocr 是一个不错的选择。

提示：安装好上面的库之外，还需要安装额外的exe文件，不然会出现下面这种错误

需要安装的exe文件：

1. ImageMagick

2. tesseract-OCR

这两个软件的安装过程就不再赘述了，大家可以自行搜索教程进行安装。

03.提取内容

下面以其中一张图片为例，讲解如何提取目标内容：金额、名称、纳税人识别号、开票人。

读取图片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

提取金额

需要截取到发票中金额的位置

## 金额
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展示图片
image_text1.show()

这里的left、top、right、bottom的数值是通过多次修改定位而来。大家根据自己的发票内容去定位即可。

接着将图片中的数字提取出来

同样的，下面继续提取：名称

提取名称

       left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

这里的名称是中文的，咱们不能再像提取金额（数字）操作。需要使用到cnocr去将图片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

提取纳税人识别号

#纳税人识别号
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展示图片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

将图片中的纳税人识别号提取出来，结果如下：

提取开票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

由于有中文，咱们这里同样和提取名称一样，使用cnocr将图片中的中文取出。

ok这样我们就将发票中的四个目标内容提取出来，接着将文件夹pic下的所有发票，进行识别将内容保存到excel。

04.批量识别发票并保存到excel

在读取图片之前，先将上面的四个操作封装成函数，方便每一种发票对象进行调用。

读取文件夹下的所有图片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

开始进行识别，并将结果写入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 写入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("发票汇总-李运辰.xls")  # 保存结果

最后保存为：发票汇总-李运辰.xls，其结果如下：