
原图长这样,
识别后结果:
Docekr 部署的 PaddleOCR-VL
问题就是列错位了,个别情况单位还识别不出来,官网的 API 也是这样,试了一下官网三个模型,就 VL 感觉还行
Windows 开发用过 PP-StructureV3 ,对数字的识别不太友好
除了拿到结果进行后处理,还有没有其他方法,让模型更加准确一点
AI 也给不出实质性的回答,只能来碰碰运气了
1 gyang1111 2025 年 12 月 31 日 我 ocr 是直接 tg bot 部署到 cf worker 上调用 gemini api ,ai studio 的 key 有免费额度,偶尔用用效果还不错。。 |
2 SanjinGG 2025 年 12 月 31 日 你要用别人封装的效果好点,PaddleOCR 自身很重,效果也一般,需要调教 |
3 fizzzzz 2025 年 12 月 31 日 前段时间处理过类似的,表格我用的 PP-StructureV3 ,然后让 ai 用 python 写了一个根据坐标还原结构的处理。自己利用坐标结构还原表格,不依赖 ocr 的结果。 |
4 fizzzzz 2025 年 12 月 31 日 @fizzzzz 我这个是识别后处理的办法,当时也是没找到提高模型的办法,在 查看 issue 和 ai 聊天了解到微调并不一定是正反馈有可能越微调效果越差了 |
8 donaldturinglee 2025 年 12 月 31 日 如果没有经费调用 API ,那就自己做标注训练 |
9 tboy 2025 年 12 月 31 日 给你个思路按列切割在识别 |
10 TheGreatSage 2025 年 12 月 31 日 用过,做购物小票识别,准确率一半一半吧,很考验拍照的角度 |
11 cryptovae 2025 年 12 月 31 日 |
12 lululau 2025 年 12 月 31 日 |
13 yaleyu 2025 年 12 月 31 日 |
14 supermama 2025 年 12 月 31 日 用了好几年,一直是自己二次训练。稳定性还不错。 |
17 yaleyu 2025 年 12 月 31 日 @v2306 #15 我也是前段时间有识别表格的需求,发现 PP- Structure 老是错位,还有要识别带音乐符号的字幕,PP-OCR 识别不了音乐符号,找到这个的,不过这个超级慢。 |
19 mengyx 1 月 1 日 via iPhone immich 的 OCR 用的就是这个,感觉效果还不错 |
21 Censhuang 1 月 1 日 效果就是差,建议从百度云上调用,不过百度云应该是没有说云上部署的是开源 paddle |