一个 OCR 项目,初步预算 1500,搭配相应的查询工具。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Morrowless
V2EX    外包

一个 OCR 项目,初步预算 1500,搭配相应的查询工具。

  •  
  •   Morrowless 2023-12-31 14:55:35 +08:00 2112 次点击
    这是一个创建于 655 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要求

    接近 1000 万张不同分辨率的图片,其中某个特定分辨率的大概有 300 万左右。
    图片上固定位置有类似水印相机的附加文字。
    对附加文字进行识别,用识别内容重命名图片,分文件夹归类整理。

    一个查询工具,通过文字查询符合条件的图片,可预览可批量导出。
    需要至少三个查询条件。

    识别率要求至少 95%。越高越好。

    现状

    淘宝上找人用 PaddleOCR 跑了下,识别率只有 90%左右。已放弃。
    希望能使用 PaddleOCR 或者其他类似开源项目继续优化将识别率提升上去。
    如果开源项目实在不行,不排除使用阿里、百度之类付费 OCR 服务的可能。

    做过 OCR 有兴趣的朋友请带 ID 加我: TW9ycm93bGVzcw==

    谢谢大家。

    13 条回复    2024-01-01 23:12:56 +08:00
    sltkzbw
        1
    sltkzbw  
       2023-12-31 15:44:31 +08:00
    不知道你具体遇到了什么问题,如果是文字处于图像固定位置的话可以先按大致区域截下图再走 OCR ,原图直接上可能检测会不准,识别模型按你的描述有 90%准确率那我估计就是正常打印体,应该问题不大
    zjcKD
        2
    zjcKD  
       2023-12-31 17:21:02 +08:00
    这个有现成的云服务吧?
    youyang
        3
    youyang  
       2023-12-31 19:24:53 +08:00
    @zjcKD 这预算感觉用云服务更合适
    Morrowless
        4
    Morrowless  
    OP
       2024-01-01 00:38:01 +08:00 via Android
    @sltkzbw 服务器崩溃,数据恢复后目录结构以及文件名丢失,只能通过 OCR 尽量获取可用信息。
    Morrowless
        5
    Morrowless  
    OP
       2024-01-01 00:38:21 +08:00 via Android
    @zjcKD 有,贵……
    Morrowless
        6
    Morrowless  
    OP
       2024-01-01 00:38:53 +08:00 via Android
    @youyang 这个预算用阿里百度等的 OCR 服务真不够诶
    huangzebang787
        7
    huangzebang787  
       2024-01-01 01:25:28 +08:00
    1500 确实预算太低了
    Felix96
        8
    Felix96  
       2024-01-01 11:11:21 +08:00 via iPhone
    我最近在做 paddleOCR 项目,我刚刚加你微信了。
    shubiao
        9
    shubiao  
       2024-01-01 12:13:04 +08:00 via Android
    说下我知道的,正好我负责对接的百度 ocr ,我司是识别 ui 的设计稿
    100w 次调用,8k+,你这个量得纯费用就 8w ,还不算人工费。

    百度里面有一款指定格式识别,就是类似识别身份证上的身份证号,不过可以自定义位置,可以看下


    楼上说的截图后识别可以试试
    星火的 gpt 支持传图,企业有 500 万 token 可以试试
    找个便宜的 gpt4 key 服务商,可以试试 gpt4
    多张图截图后合并一次,4 合一,立马省 75%的费用
    shubiao
        10
    shubiao  
       2024-01-01 12:17:02 +08:00 via Android
    另外,ocr 出来的东西不可控,比如横线,可能是中划线 下划线 汉字一 等等
    你这种想精确使用识别的文字的情况,很难实现
    zuiyue123
        11
    zuiyue123  
       2024-01-01 22:23:11 +08:00
    手里完整模型有一套,可以尝试下
    nyxsonsleep
        12
    nyxsonsleep  
       2024-01-01 22:42:44 +08:00
    @shubiao #9 ai 识图能力能有 95%?
    shubiao
        13
    shubiao  
       2024-01-01 23:12:56 +08:00 via Android
    @nyxsonsleep 没估,我们识别出来文字也是喂给其他模块使用。
    我们尝试直接用多模态去实现最终功能,效果也挺好。
    一是贵,二是 ocr 文字可以用到很多地方,所以就放弃这个路线了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1130 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:32 PVG 07:32 LAX 16:32 JFK 19:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86