Tesseract-OCR的训练

2013-03-18 Epix Leave a comment

之前按照各路教程教程来训练Tesseract, 遇到了各种错误, 今天终于训练成功.

一定要注意看官方提供的教程– TrainingTesseract3 ! 完全按照步骤做, 不要随便简化!

需要特别注意的地方或者说我费了劲才注意到的地方 :

所有文件必须是UTF-8无BOM格式, 所有文件最后必须有一个换行符(n). 需要手动编辑的文件要特别注意, 比如”font_properties”文件.
每个字要重复若干遍(官方是说10遍就可以)
要求这样写的文件名”[lang].[fontname].exp[num].tif” 必须写成这种形式, 不能仅仅用一个”a.tif” 代替
使用jTessBoxEditor可以可视的修改Box文件, 但是批量的时候可以用文本编辑软件(比如Notepad++)来提高效率.
3.02.02版有一步是”shapeclustering”, 可能与之前版本不同, 需要注意
unicharset, shapetable, normproto, inttemp, pffmtable 这几个文件要手动加上 [lang]. 的前缀

Leave a Reply Cancel reply

_(:3」∠)_