Tesseract-OCR 字体包训练问题求教 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Kvip
V2EX    程序员

Tesseract-OCR 字体包训练问题求教

  •  
  •   Kvip 2020-12-10 16:40:38 +08:00 2086 次点击
    这是一个创建于 1779 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这阵子在做 Tesseract-OCR 的字体训练,其中遇到了几个问题,使我很烦恼,特意来求教各大佬

    1 、 在将图像生成对应的 .box 文件后,使用 jTessBoxEditorFx 软件进行校正时,发现字体虽然大部分都能识别出来,但是每个字的位置却出现了很严重的偏差,如下图,需要逐个字体进行校正位置坐标才行(如下图一),不知道这是什么原因引起的。(每个字都需要进行位置校正,工程量太大了)

    图一:生成 box 文件.png

    2 、 字体训练后,单独使用我训练过的字体包来识别图像,只能识别出那些我有训练过的文字,如果图像出现了我没训练过的文字,这些文字就会胡乱显示为我训练过的文字,如下图(这问题我还能理解)

    图二:识别没训练过的字.png

    3 、如果在识别时,设置语言包 lang 的参数为 我训练过的字体包 + 通用中文简体包 chi_sim,识别出来的文字则和单独使用通用中文简体包 chi_sim效果一致,也就是说我训练的字完全不起作用。如下图 图 3:各字体包识别效果.png

    我预期的结果:我训练的字体包和官方的字体包可以在一起使用(毕竟自己不可能每个字都训练到,这还是得靠官方支持)。各位大佬何以教我

    3 条回复    2020-12-10 19:20:30 +08:00
    95276
        1
    95276  
       2020-12-10 17:23:22 +08:00
    感觉应该要把你训练的和官方的合并一下 或者在官方的基础上训练.
    zhuangzhuang1988
        2
    zhuangzhuang1988  
       2020-12-10 17:42:58 +08:00
    放弃吧 这货 巨费时间
    而且 新的 Tesseract 也不是基于具体的字训练的
    记得是基于行训练的
    sadfQED2
        3
    sadfQED2  
       2020-12-10 19:20:30 +08:00 via Android
    我曾经花过半个月时间整理训练集,然后提交训练,最后发现结果很一般。

    然后,我花了三天时间自己用 tensorflow 写了一个文字识别,然后一跑训练集,比它这玩意效果还好点

    另外,你想要的应该是合并训练集
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     910 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 19:47 PVG 03:47 LAX 12:47 JFK 15:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86