Tesseract-OCR的训练

之前按照各路教程教程来训练Tesseract, 遇到了各种错误, 今天终于训练成功.

一定要注意看官方提供的教程– TrainingTesseract3 ! 完全按照步骤做, 不要随便简化!

需要特别注意的地方 或者说 我费了劲才注意到的地方 :

  • 所有文件必须是UTF-8无BOM格式, 所有文件最后必须有一个换行符(n). 需要手动编辑的文件要特别注意, 比如”font_properties”文件.
  • 每个字要重复若干遍(官方是说10遍就可以)
  • 要求这样写的文件名”[lang].[fontname].exp[num].tif” 必须写成这种形式, 不能仅仅用一个”a.tif” 代替
  • 使用jTessBoxEditor可以可视的修改Box文件, 但是批量的时候可以用文本编辑软件(比如Notepad++)来提高效率.
  • 3.02.02版有一步是”shapeclustering”, 可能与之前版本不同, 需要注意
  • unicharset, shapetable, normproto, inttemp, pffmtable 这几个文件要手动加上 [lang]. 的前缀

Leave a Reply

Your email address will not be published. Required fields are marked *