Tesseract-OCR 训练自己的中文字库

325 阅读 0 评论 215 点赞

我是靠谱客的博主真实大碗，这篇文章主要介绍Tesseract-OCR 训练自己的中文字库，现在分享给大家，希望可以做个参考。

先接到需求要做字符识别，故百度查询资料后，决定通过Tesseract-OCR来实现！虽然Tesseract-OCR也可以通过网上下载中文字库进行识别！但是由于识别效果不是很理想，所以决定根据所需要的识别的内容训练字库！网上说字库的训练最好在Tesseract-OCR的安装目录下进行，本人Tesseract-OCR的安装目录位于D:Program FilesTesseract-OCR。先将步骤整理如下：

1.运行cmd,进入d盘 d:

2.进入Tesseract-OCR文件夹的安装目录 cdProgram FilesTesseract-OCR

3.通过jTessBoxEditor软件生成tif格式的文件（Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件）

4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox

4.1生成chi.myself.exp0.box文件后，需要使用jTessBoxEditor软件对其进行识别纠正！这部分很重要，等有时间再进行补充.......

4.2如果已经有中文字库，那么在makebox的时候可以使用中文字库，那样得到的.box文件就会有大部分是可以识别出来的，只需添加一个参数：tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox

5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train

6.生成unicharset文件 unicharset_extractor chi.myself.exp0.box

7.新建font_properties文件内容 myself 0 0 0 0 0

8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr

9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr

10.cntraining.exe chi.myself.exp0.tr

11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.

12.combine_tessdata myself.

13.现在即可将生成的字库拷贝到tessdata文件夹中使用！

注：

A.tesseract-ocr版本为3.02.02 + VS2013

最后

以上就是真实大碗最近收集整理的关于Tesseract-OCR 训练自己的中文字库的全部内容，更多相关Tesseract-OCR内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(215)

本文分类：Tesseract-OCR
浏览次数：325 次浏览
发布日期：2023-09-10 12:05:19

相关文章

Yolov5模型训练——标注物体及收集特征值Yolov5模型训练——标注物体及收集特征值

Yolov5模型训练——标注物体及收集特征值Yolov5模型训练——标注物体及收集特征值

Tesseract OCR手写数字的样本训练

Tesseract OCR手写数字的样本训练

tesseract_OCR识别英文前言一、OCR的作用二、使用步骤总结

tesseract_OCR识别英文前言一、OCR的作用二、使用步骤总结

OCR训练中文样本库和识别

Tesseract-OCR 训练自己的中文字库

Tesseract-OCR 训练自己的中文字库

Tesseract-OCR ---样本训练

Tesseract-OCR ---样本训练

借用yolov5实现目标检测自动标注

借用yolov5实现目标检测自动标注

效率神器！！！遥感影像和普通图片样本半自动标注

效率神器！！！遥感影像和普通图片样本半自动标注

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部