通过 Python 有什么办法可以把一个 pdf 文件提取成一个规律的表格么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
SystemLight
V2EX    程序员

通过 Python 有什么办法可以把一个 pdf 文件提取成一个规律的表格么?

  •  
  •   SystemLight
    SystemLight 2020-03-03 13:48:44 +08:00 2785 次点击
    这是一个创建于 2114 天前的主题,其中的信息可能已经有所发展或是发生改变。

    说明:

    1. pdf 中含有图片,需要将图片中的内容识别出来
    2. pdf 格式如下,每一个条码构成一行,每一行有四列包含图中的四个数据,有什么办法提取出来么

    pdf 格式

    10 条回复    2020-03-04 20:42:41 +08:00
    gracehunter
        1
    gracehunter  
       2020-03-03 14:35:23 +08:00
    pdfminer 试一下?
    zhzy
        2
    zhzy  
       2020-03-03 14:44:38 +08:00 via iPhone   1
    你需要的是 ocr 工具
    MaxTan
        3
    MaxTan  
       2020-03-03 14:57:18 +08:00
    以前做过类似的,解析出来得到很多都是文本或者 html 的; 如果解析后拿到还是图片那只能做图像识别
    ipwx
        4
    ipwx  
       2020-03-03 15:03:17 +08:00
    先切图。你这内容这么规整,切入很容易啊。然后上 OCR 呗。
    NaVient
        5
    NaVient  
       2020-03-03 15:06:41 +08:00
    这种这么规整的数字和英文 用光学 OCR 很容易就识别出来了,主要的问题就是好好切图,如果一列的长度固定,PDF 大小固定 连切图都不是问题了
    Kakus
        6
    Kakus  
       2020-03-03 16:28:30 +08:00   1
    最近试用了百度 AI 的文字识别,识别率挺高。有个自定义模板识别功能,选中目标区域就可以识别了。但是你这个图上没有固定内容作参照字段,可以切片后加上参照再调用模板识别。https://ai.baidu.com/ai-doc/OCR/nk3h7y8y8
    huruwo
        7
    huruwo  
       2020-03-03 16:37:54 +08:00
    先切分 再识别
    Vegetable
        8
    Vegetable  
       2020-03-03 16:44:03 +08:00
    渲染成图片,剪裁,ocr
    zxcvsh
        9
    zxcvsh  
       2020-03-04 09:33:44 +08:00 via iPhone
    分割图片 + OCR
    百度搜索“二维码识别”,有很多解决方案,你这些待识别字很清晰而且没有躁点
    另外楼上说的 “百度提供的 OCR 服务”也可以看看,之前用的时候,免费解析次数挺多的
    SystemLight
        10
    SystemLight  
    OP
       2020-03-04 20:42:41 +08:00
    @Kakus 感谢,按照您说的方法已经成功转换
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1014 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 18:37 PVG 02:37 LAX 10:37 JFK 13:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86