求助，各位有没有使用过 PaddleOCR 的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 52 天前的主题，其中的信息可能已经有所发展或是发生改变。

原图长这样，

识别后结果：

Docekr 部署的 PaddleOCR-VL

问题就是列错位了，个别情况单位还识别不出来，官网的 API 也是这样，试了一下官网三个模型，就 VL 感觉还行

Windows 开发用过 PP-StructureV3 ，对数字的识别不太友好

除了拿到结果进行后处理，还有没有其他方法，让模型更加准确一点

AI 也给不出实质性的回答，只能来碰碰运气了

paddleocr

列错位

后处理

22 条回复 2026-01-01 18:50:23 +08:00

gyang1111

2025 年 12 月 31 日

我 ocr 是直接 tg bot 部署到 cf worker 上调用 gemini api ，ai studio 的 key 有免费额度，偶尔用用效果还不错。。

SanjinGG

2025 年 12 月 31 日

你要用别人封装的效果好点，PaddleOCR 自身很重，效果也一般，需要调教

fizzzzz

2025 年 12 月 31 日

前段时间处理过类似的，表格我用的 PP-StructureV3 ，然后让 ai 用 python 写了一个根据坐标还原结构的处理。自己利用坐标结构还原表格，不依赖 ocr 的结果。

fizzzzz

2025 年 12 月 31 日

@fizzzzz 我这个是识别后处理的办法，当时也是没找到提高模型的办法，在查看 issue 和 ai 聊天了解到微调并不一定是正反馈有可能越微调效果越差了

fizzzzz

2025 年 12 月 31 日

@fizzzzz #4 再推荐一个 mineru ocr 你也可以试试效果

v2306

2025 年 12 月 31 日

@fizzzzz #3 感谢提供思路

v2306

2025 年 12 月 31 日

@SanjinGG 相当重了

donaldturinglee

2025 年 12 月 31 日

如果没有经费调用 API ，那就自己做标注训练

tboy

2025 年 12 月 31 日

给你个思路按列切割在识别

TheGreatSage

2025 年 12 月 31 日

用过，做购物小票识别，准确率一半一半吧，很考验拍照的角度

cryptovae

2025 年 12 月 31 日

试一下这个？

https://opendatalab.github.io/MinerU/zh/demo/

lululau

2025 年 12 月 31 日

试试讯飞云的: https://iocr.xfyun.cn/experience/bigModelDocumentIdentification

yaleyu

2025 年 12 月 31 日

最近发现一个识别率挺高的 OCR ，https://github.com/datalab-to/surya, 识别你的图片如下

supermama

2025 年 12 月 31 日

用了好几年，一直是自己二次训练。稳定性还不错。

v2306

2025 年 12 月 31 日

@yaleyu #13 可以啊

v2306

2025 年 12 月 31 日

@supermama #14 老哥怎么二次训练啊，没搞过

yaleyu

2025 年 12 月 31 日

@v2306 #15 我也是前段时间有识别表格的需求，发现 PP- Structure 老是错位，还有要识别带音乐符号的字幕，PP-OCR 识别不了音乐符号，找到这个的，不过这个超级慢。

v2306

2025 年 12 月 31 日

@yaleyu #17 一模一样哈，PP-structure 真的不好用，识别我那张图数量和单价数值都是连在一起的。这个 VL 也慢

mengyx

1 月 1 日 via iPhone

immich 的 OCR 用的就是这个，感觉效果还不错

supermama

1 月 1 日

@v2306 你可以看下 paddle 官网，官网有文档教怎么做的。

Censhuang

1 月 1 日

效果就是差，建议从百度云上调用，不过百度云应该是没有说云上部署的是开源 paddle

v2306

1 月 1 日

@Censhuang 百度云那个示例，真的是又快又准，还能选择不同的场景；但是领导说了，又是发票又是合同的，放到公有云不安全