Tesseract OCR 识别语言编码简体中文chi_sim

309 阅读 0 评论 204 点赞

我是靠谱客的博主洁净向日葵，这篇文章主要介绍Tesseract OCR 识别语言编码简体中文chi_sim，现在分享给大家，希望可以做个参考。

Teseeract ORC 是一款开源的ORC识别库。备注下识别语言编码：简体中文是chi_sim。Tesseract uses 3-character ISO 639-2 language codes。
如下从其gitHub摘抄的：地址：https://github.com/tesseract-ocr/tesseract/blob/a75ab450a8cc9a2b69cf05f5c4f7a39bc44cbacc/doc/tesseract.1.asc

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

afr (Afrikaans) amh (Amharic) ara (Arabic) asm (Assamese) aze (Azerbaijani) aze_cyrl (Azerbaijani - Cyrilic) bel(Belarusian) ben (Bengali) bod (Tibetan) bos (Bosnian) bul (Bulgarian) cat (Catalan; Valencian) ceb (Cebuano) ces (Czech)chi_sim (Chinese - Simplified) chi_tra (Chinese - Traditional) chr (Cherokee) cym (Welsh) dan (Danish) dan_frak (Danish - Fraktur) deu (German) deu_frak (German - Fraktur) dzo (Dzongkha) ell (Greek, Modern (1453-)) eng (English) enm(English, Middle (1100-1500)) epo (Esperanto) equ (Math / equation detection module) est (Estonian) eus (Basque) fas(Persian) fin (Finnish) fra (French) frk (Frankish) frm (French, Middle (ca.1400-1600)) gle (Irish) glg (Galician) grc (Greek, Ancient (to 1453)) guj (Gujarati) hat (Haitian; Haitian Creole) heb (Hebrew) hin (Hindi) hrv (Croatian) hun (Hungarian) iku(Inuktitut) ind (Indonesian) isl (Icelandic) ita (Italian) ita_old (Italian - Old) jav (Javanese) jpn (Japanese) kan (Kannada) kat(Georgian) kat_old (Georgian - Old) kaz (Kazakh) khm (Central Khmer) kir (Kirghiz; Kyrgyz) kor (Korean) kur (Kurdish) lao(Lao) lat (Latin) lav (Latvian) lit (Lithuanian) mal (Malayalam) mar (Marathi) mkd (Macedonian) mlt (Maltese) msa (Malay)mya (Burmese) nep (Nepali) nld (Dutch; Flemish) nor (Norwegian) ori (Oriya) osd (Orientation and script detection module) pan (Panjabi; Punjabi) pol (Polish) por (Portuguese) pus (Pushto; Pashto) ron (Romanian; Moldavian; Moldovan)rus (Russian) san (Sanskrit) sin (Sinhala; Sinhalese) slk (Slovak) slk_frak (Slovak - Fraktur) slv (Slovenian) spa (Spanish; Castilian) spa_old (Spanish; Castilian - Old) sqi (Albanian) srp (Serbian) srp_latn (Serbian - Latin) swa (Swahili) swe(Swedish) syr (Syriac) tam (Tamil) tel (Telugu) tgk (Tajik) tgl (Tagalog) tha (Thai) tir (Tigrinya) tur (Turkish) uig (Uighur; Uyghur) ukr (Ukrainian) urd (Urdu) uzb (Uzbek) uzb_cyrl (Uzbek - Cyrilic) vie (Vietnamese) yid (Yiddish)

To use a non-standard language pack named foo.traineddata, set the TESSDATA_PREFIX environment variable so the file can be found at TESSDATA_PREFIX/tessdata/foo.traineddata and give Tesseract the argument -l foo.