求助帖:营业执照内容识别 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答术问题时复制粘贴 AI 生成的内容
Visitor233
V2EX    程序员

求助帖:营业执照内容识别

  •  
  •   Visitor233 2020-09-18 11:09:26 +08:00 4442 次点击
    这是一个创建于 1925 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,最近整的项目要识别上传的营业执照图片,并获名称和信用代码这些信息。git 上没搜到= =(或许姿势不对)。我对这块不了解,希望有经验的大佬留言指点下,谢谢。

    24 条回复    2020-09-19 06:42:15 +08:00
    shequ2046
        1
    shequ2046  
       2020-09-18 11:15:29 +08:00
    也求一下其他证件的识别代码。。。
    xinghen57
        2
    xinghen57  
       2020-09-18 11:17:08 +08:00 via iPhone
    图片处理加 ocr,这个思路试试吧
    jdhao
        3
    jdhao  
       2020-09-18 11:35:53 +08:00 via Android
    先用 ocr 识别文字和具体位置,然后做处理,提取你想要的内容
    Blulotus
        4
    Blulotus  
       2020-09-18 11:36:17 +08:00
    百度 api 每天有两百次免费额度
    renmu123
        5
    renmu123  
       2020-09-18 11:40:02 +08:00
    应该和发票识别挺像的
    twor2
        6
    twor2  
       2020-09-18 11:41:21 +08:00
    营业执照上有二维码,直接解析二维码上的网页内容如何?
    Visitor233
        7
    Visitor233  
    OP
       2020-09-18 11:41:23 +08:00
    @xinghen57
    @jdhao 么我也想试试自己写代码,少用第三方,这等提升自我的机会放弃了,可惜。
    @Blulotus 每天 200 次免费就很 nice,谢谢
    brendanliu
        8
    brendanliu  
       2020-09-18 11:41:26 +08:00
    百度 AI 文字识别-营业执照识别欢迎你 https://ai.baidu.com/tech/ocr_cards/business
    需要优惠可联系我
    jdhao
        9
    jdhao  
       2020-09-18 11:43:06 +08:00 via Android
    @Visitor233 你调用 ocr 识别 api 就行了,自己开发文字识别工作量巨大。或者像 8 楼那样,直接调用识别证件的接口,一步到位,看你自己的需求。
    xinghen57
        10
    xinghen57  
       2020-09-18 11:51:30 +08:00 via iPhone
    @Visitor233 github 上找图片处理类软件的项目,或者天若 ocr,这个是有源码。
    天若 OCR 的思路是先处理,得到符合百度 OCR API 要求的图片再上传识别。
    之前百度文字 OCR 的 API,每天是上万次的免费,一般小企业够用的。
    不先以处理,会影响 OCR 识别效果。
    xinghen57
        11
    xinghen57  
       2020-09-18 11:53:06 +08:00 via iPhone
    不过有个问题,无论自己开发还是调用现场执照识别 API,准确率都没法 100%
    wwwwzf
        12
    wwwwzf  
       2020-09-18 12:03:21 +08:00
    https://v.ziti163.com/Font/webfont
    这有 ocr 识别,点上面菜单进,你看看
    chinvo
        13
    chinvo  
       2020-09-18 12:05:42 +08:00 via iPhone
    @twor2 #6 系统改过好几次,有很多营业执照上的二维码已经是无效链接甚至域名都没了
    Visitor233
        14
    Visitor233  
    OP
       2020-09-18 14:37:09 +08:00
    @brendanliu
    @xinghen57 刚试了百度的 OCR,图片里的 J 字母识别成了数字 1,这就很尴尬了
    brendanliu
        15
    brendanliu  
       2020-09-18 14:53:00 +08:00
    @Visitor233 目前无法做到 100%精准识别 badcase 可以在工单里反馈 工程师会对模型做相应的优化
    qiayue
        16
    qiayue  
    PRO
       2020-09-18 14:53:19 +08:00
    @Visitor233 肉眼可能出错的,程序识别也会出错
    xinghen57
        17
    xinghen57  
       2020-09-18 16:07:02 +08:00 via iPhone
    @Visitor233 你还是用现成的营业执照 OCR API 吧。
    J 识别错,正则替换或其他方式,比如分割处理下后再识别。
    另外看看文档,可能可以添加英文识别。
    我没接触太多,感觉几个技术点,一个在图片前期的处理,一个是 OCR 识别(准确率、排版以及准确度低的处理)
    天若对 OCR 的排版做的一般,对准确度处理根本没做。
    接触过的文字识别类软件,比如百度 OCR API (免费的文字识别)、白描、熊猫啥啥的、acrobat,都很少对识别准确率低文字的处理流程。
    这块超出你能力太多了。
    你要有想法,慢慢补没问题,直接拿出来用不是明智的选择。
    上面的都搞定了,完全可以开发个 app 自己用,嗯我我就是这么长远规划的。
    另外 OCR 好像有本地识别模型可以深度学习,又涉及神经网络了。
    技术有天花板,即便识别率 99.99%,剩下的 0.001%,需要其他非技术解决。
    慎满腔热血扎进去,后头土脸走出来。
    xinghen57
        18
    xinghen57  
       2020-09-18 16:12:44 +08:00 via iPhone
    有些东西可以自己积累。
    我之前识别,遇到“一 yi”,识别出来后会有“-_~”这几个,直接正则替换就解决了。
    这虽说是优化,但只是笨办法而已。
    yishengyongyi
        19
    yishengyongyi  
       2020-09-18 16:17:08 +08:00 via Android
    用腾讯或者阿狸的,要求识别率高的话就属于人工智能范畴了,自己开发大概率比不过腾讯和阿狸
    wongchance
        20
    wongchance  
       2020-09-18 16:31:58 +08:00
    dorothyREN
        21
    dorothyREN  
       2020-09-18 20:04:52 +08:00
    免费接口就行
    evonotevil
        22
    evonotevil  
       2020-09-18 23:50:09 +08:00
    Mac 扫描王
    zliea
        23
    zliea  
       2020-09-19 06:01:16 +08:00
    @Visitor233 可以试一下高精度,之前识别医疗单据低精度 GG,高精度很满意。而且感觉整图全文识别和切割后再识别精度也不一样。
    Gathaly
        24
    Gathaly  
       2020-09-19 06:42:15 +08:00
    v2 真的变了,全部都调包侠....
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1273 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 17:14 PVG 01:14 LAX 09:14 JFK 12:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86