我是靠谱客的博主 真实大碗,最近开发中收集的这篇文章主要介绍Tesseract-OCR 训练自己的中文字库,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

先接到需求要做字符识别,故百度查询资料后,决定通过Tesseract-OCR来实现!虽然Tesseract-OCR也可以通过网上下载中文字库进行识别!但是由于识别效果不是很理想,所以决定根据所需要的识别的内容训练字库!网上说字库的训练最好在Tesseract-OCR的安装目录下进行,本人Tesseract-OCR的安装目录位于D:Program FilesTesseract-OCR。先将步骤整理如下:

1.运行cmd,进入d盘 d:

2.进入Tesseract-OCR文件夹的安装目录 cdProgram FilesTesseract-OCR

3.通过jTessBoxEditor软件 生成tif格式的文件(Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件)


4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox


4.1生成chi.myself.exp0.box文件后,需要使用jTessBoxEditor软件对其进行识别纠正!这部分很重要,等有时间再进行补充.......

4.2如果已经有中文字库,那么在makebox的时候可以使用中文字库,那样得到的.box文件就会有大部分是可以识别出来的,只需添加一个参数:tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox

5.生成.tr文件 tesseract.exe  chi.myself.exp0.tif chi.myself.exp0  nobatch box.train


6.生成unicharset文件 unicharset_extractor  chi.myself.exp0.box


7.新建font_properties文件 内容 myself 0 0 0 0 0


8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr


9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr


10.cntraining.exe chi.myself.exp0.tr


11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.  


12.combine_tessdata myself.


13.现在即可将生成的字库拷贝到tessdata文件夹中使用!


注:

A.tesseract-ocr版本为3.02.02 + VS2013

最后

以上就是真实大碗为你收集整理的Tesseract-OCR 训练自己的中文字库的全部内容,希望文章能够帮你解决Tesseract-OCR 训练自己的中文字库所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部