![]() | 1 supermama 77 天前 只能自己训练 |
![]() | 2 xomix 77 天前 前两天看到一个人搞了个 iPhone8 ,拿官方的 ocr 接口直接搞 ocr 服务器。 还有一个是微信 ocr 直接用,不知道你能不能用上。 另外你文中提到的问题是 ocr 分区识别的问题,你这是打算让 ai 直接帮你做了?那你可能需要写清楚你的需求,试着让 ai 从图片处理开始走流程。 |
![]() | 4 8820670 77 天前 via Android pdf 的可以看 mineru |
![]() | 5 Maroontor 77 天前 Paddle 的准确率太低了 |
![]() | 6 iorilu 77 天前 腾讯那个应该可以, 虽然模型不大, 但至少是专门训练的 其他不是专门训练成功率低没意义 我认为至少成功准确率 99%以上才有用, 要有大厂训练一个开源的就好了, 很多地方可以用 |
8 Sh1xin OP @xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ,根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合,OCR 输出的格式就错了,AI 识别有问题 |
![]() | 9 test00001 77 天前 pdf 我没试过,不过 gemini 模型对图片的 ocr 还是蛮好的。 |
11 Sh1xin OP @test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用 |
![]() | 12 Ipsum 77 天前 不怕出事,就用 wx 的那个 ocr 。训练得很好。 |
13 xinyu391 77 天前 可以用我司的 文档解析服务 支持 图片,pdf (扫描档,电子档),公式,表格等。 https://www.textin.com/market/detail/xparse |
14 visper 77 天前 yolo 训练,识别出框,然后通过框把图片截图出来再给 paddleocr. |
15 hmxxmh 77 天前 pdf 的试一下 minerU 和 docing, 图片用 yolov8+ppocr |
![]() | 16 SanjinGG 77 天前 自己优化,要不就买商用的 |
![]() | 17 fannheyward 77 天前 https://github.com/chatdoc-com/OCRFlux 识别效果和准确率都非常好 |
![]() | 18 evan1 PRO |
![]() | 19 andyskaura 77 天前 https://github.com/golangboy/wxocr 微信的 ocr 谁有 clone 吗? |
20 thealert 77 天前 paddleocr 的准确率不行,都不如 chatgpt |
![]() | 22 iorilu 77 天前 @andyskaura 一大堆 fork 阿, 点进去看 |
23 stacke 77 天前 ![]() 当时 fork 了一个微信 OCR ,不知道还能不能用: https://github.com/Git-cup/wxocr |
![]() | 24 Rorysky 77 天前 这需求属于上古场景,还不需要动用 llm 吧 |
![]() | 25 xiadengmaX1 77 天前 paddleocr 的参数调一调吧 |
26 alexsz 77 天前 扫描件的 OCR 结果不可靠,无解 |
27 anyx 77 天前 部分业务场景 OCR 识别粘连,多个相近的文本识别为同一个检测框;以及原本就是多行的文本,但是需求是要转换成一行 ----------------------------- 看来你需要的是多模态识别能力,可以试试 qweb2.5-vl 系列模型 |
28 anyx 77 天前 qwen2.5-vl 7b 的模型识别效果就很好了 |
29 nno 77 天前 检测框出问题是因为你模型输入图片分辨率太低 |
30 johnnyyeen 77 天前 问一下楼主,Geema 3 对比以前深度学习模型解决方案,有很大提升吗? |
31 bigtear 77 天前 via Android 直接上多模态大模型,没必要加个 ocr |
36 Mithril 77 天前 这个你可以调一下 paddle 的参数试试。 在 det 里面的 unclip ,dilation ,db_threshold 都可以改改看,然后找个合适的参数。 除非识别率特别低,不然多模态的大模型部署成本还是挺高的,没什么换的必要。 |
![]() | 37 iorilu 77 天前 没有好的私有化部署方案很正常 因为这个服务现在是可以卖钱的, 就像 claude 4 一样 如果人人能自己部署且有很好效果, 怎么可能拿来卖钱呢 能卖钱的总是有些独有优化方案的 |
![]() | 38 my3157 77 天前 via Android ollama + markitdown 试试,先统一处理为 markdown ,后续再分情况处理 |
41 apkapb 77 天前 很好奇楼主的图片到底是什么样,居然 wxocr 都不行 |
![]() | 42 skiy 77 天前 via iPhone ![]() @andyskaura https://github.com/golangboy/wxocr/tree/3909467 不用查看别人的 fork 。直接看项目的 Active ,把最后的 commit id 弄出来就行了。强制覆盖不影响原代码还存在的问题。 |
![]() | 43 beginor 77 天前 没有人直接用 qwen 2.5 vl 32b 的么, 一步到位多好? 用一张 48G 的 4090 妖卡来跑,效果比 paddleocr ocrflux 这些基于 qwen vl 3b/7b 进行二次训练模型好不少 |
44 Sh1xin OP |
46 wwhc 77 天前 Qwen 2.5 vl 有 72B 的,性能很好了,建议楼主可以试试 |
![]() | 47 andyskaura 77 天前 @skiy 这是真学到了 感谢 |
![]() | 48 zhangjianxinnet 77 天前 @Sh1xin 试试直接用 GLM-4v-thinking-9b 我用起来很 nice 给好提示词 基本能按照原来的比例生成 markdown |
49 JingKeWu 77 天前 这个我正好做过 使用 OnnxOCR 模型 部署在腾讯云函数服务 |
50 Sh1xin OP 感谢各位指导,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中 |