
需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦,有没有训练好的字库?或者其他的方法可以实现本地的中文识别。
1 wshedu 2018 年 1 月 21 日 百度和腾讯云都有 ocr 在线识别。 |
3 woyaojizhu8 2018 年 1 月 21 日 不存在的,中文识别只有 abbyy 文通和汉王 |
5 murmur 2018 年 1 月 21 日 训练这个东西最好是自己做 除非是标准的印刷体 或者直接像 1 楼说的用云服务不更好 |
6 m939594960 2018 年 1 月 21 日 我也有类似的需求,但是都是标准的字体,有没有那种按字体训练好的 |
7 lonelygo 2018 年 1 月 21 日 @woshichuanqilz @m939594960 如果是标准字体,用 tesseract 3.05 版本,是基于机器学习的方法而不是深度学习,自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件,人工校对这个工作量不小,真训练过程很快也不难。 4.0 版本是基于 LSTM 的,算是深度学习的方法了,需要的数据集更大也会更慢,而且官方文档写的比较晦涩,需要结合代码和 3.0*的方法一起理解。 现成的,那就是 3 楼推荐的了,花钱买吧。 |
8 WispZhan 2018 年 1 月 21 日 tesseract 这玩意,做中文识别很淡疼的。针对不同字体训练库最后弄出来很大很大。特别是字体多了之后…… |
10 SatanFu 2018 年 1 月 22 日 https://github.com/tesseract-ocr/tessdata 这里有一些训练好的数据 |
12 lonelygo 2018 年 1 月 22 日 |
13 faicker 2018 年 1 月 22 日 4.0 最新的 master,用的这里的已经训练好的字库,https://github.com/tesseract-ocr/tessdata_best 识别率感觉还行。 |
14 woshichuanqilz OP @faicker 用了, 好一点但是也比较不理想, 谢谢~ |
15 sayyoume 2018 年 11 月 12 日 请问 windows 下 你们是怎么编译通过的?翻墙? |
16 craftx 2023 年 5 月 8 日 实测 https://github.com/tesseract-ocr/tessdata_best 的中文训练集较理想,基本满足需求 |