耗时一个月我开发了一个 PDF 转 Word 的在线工具 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
hfxsm
V2EX    分享创造

耗时一个月我开发了一个 PDF 转 Word 的在线工具

  •  
  •   hfxsm 2024-01-19 13:27:16 +08:00 11301 次点击
    这是一个创建于 630 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是一个我花费了数月时间开发的在线 PDF 转换工具pdf2docx.cn,它不仅支持将 PDF 转换为 Word ,还包括 PDF 转 Excel 、PDF 转 PPT 等功能。今天,我想在 V2EX 这个技术社区分享我的项目,并且真诚地希望大家能试用并给出宝贵的反馈和建议。

    项目背景: 我经常遇到需要将 PDF 文件转换为可编辑格式的情况。市面上虽然有许多此类工具,但往往难以满足高效率和高保真的需求。因此,我决定自己动手,打造一个更符合开发者和专业人士需求的工具。

    主要特性:

    • 高保真转换:能够准确保留 PDF 的布局、格式和字体。
    • 多功能性:除了 PDF 转 Word ,还支持 PDF 转 Excel 、PDF 转 PPT ,以及反向转换。
    • 简洁的用户界面:专注于核心功能,避免不必要的复杂性。
    • 优化的转换速度:对于大文件和复杂布局也能快速处理。

    技术挑战: 在开发过程中,我遇到了一些技术挑战,比如如何有效地处理复杂的 PDF 布局,如何确保转换后文档的格式不乱。

    请求大家的反馈:

    • 你在使用过程中遇到了哪些问题?
    • 有哪些功能是你希望添加的?
    • 对于现有的功能,你有什么改进的建议?

    访问链接: www.pdf2docx.cn

    期待大家的回复和讨论!

    79 条回复    2025-04-09 17:38:22 +08:00
    dashupc
        1
    dashupc  
       2024-01-19 13:30:18 +08:00
    打不开啊,老铁
    xunqin
        2
    xunqin  
       2024-01-19 13:32:51 +08:00
    可以的
    hfxsm
        3
    hfxsm  
    OP
       2024-01-19 13:38:39 +08:00
    @dashupc 啊?阿里云买的机器,是一直在转圈吗?
    hfxsm
        4
    hfxsm  
    OP
       2024-01-19 13:39:34 +08:00
    @xunqin 欢迎多体验,免费的哈
    dashupc
        5
    dashupc  
       2024-01-19 13:48:26 +08:00
    上传了个 36M 的卡 90%不动了
    hfxsm
        6
    hfxsm  
    OP
       2024-01-19 13:51:42 +08:00
    @dashupc 收到,我来优化下,36M 的 pdf 文件有点大的,可能需要花点时间转换,下一版本准备把需要转换时长也展示出来。
    jorneyr
        7
    jorneyr  
       2024-01-19 13:53:02 +08:00
    2.3M 的 pdf 转 word ,也是 90% 就卡住了,后端是对 90% 情有独钟吗?
    listenerri
        8
    listenerri  
       2024-01-19 13:55:38 +08:00
    域名挺好
    dashupc
        9
    dashupc  
       2024-01-19 13:56:25 +08:00
    应用文写作…506.pdf 58.7 MB
    转换中
    90%

    删除


    又卡了
    sjqmmd
        10
    sjqmmd  
       2024-01-19 13:56:52 +08:00
    同卡在 90%
    proxychains
        11
    proxychains  
       2024-01-19 13:58:50 +08:00
    ERR_EMPTY_RESPONSE
    LHN
        12
    LHN  
       2024-01-19 13:59:48 +08:00
    45KB 的 pdf 卡主了
    Ghostsss
        13
    Ghostsss  
       2024-01-19 14:00:41 +08:00
    7.7 MB 的文件一样卡到 90%了
    hfxsm
        14
    hfxsm  
    OP
       2024-01-19 14:02:17 +08:00
    家人们,我的小机器好像顶不住大文件转换,等我优化几波再来更新!!!
    wizzer
        15
    wizzer  
       2024-01-19 14:02:26 +08:00
    合肥本地的公司啊
    jstony
        16
    jstony  
       2024-01-19 14:03:34 +08:00
    大家别试了,甲方付款才付到 90%,还有 10%尾款没收到:)
    natsuki22
        17
    natsuki22  
       2024-01-19 14:19:49 +08:00
    你这个网址。。。。。pdf2docx.com 更好用(
    hfxsm
        18
    hfxsm  
    OP
       2024-01-19 14:22:49 +08:00
    @natsuki22 像优秀的网站学习,我这个 pdf 和 office 文件互转
    thanning0
        19
    thanning0  
       2024-01-19 14:25:05 +08:00
    随手转了篇 PDF 文献到 word 试试,除了数学符号公式转换的效果不太好(有的符号居然是图片?),其他的格式,表格,算法框,超链接都挺好的,给楼主点赞。

    建议如果能把数学公式转换处理好,比如把 latex 编译的 pdf 数学公式转成 mathtype 的数学公式就太好了。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       2024-01-19 14:28:50 +08:00
    stiekel
        21
    stiekel  
       2024-01-19 14:30:53 +08:00
    实测 34.2MB 文件,的确 90%会卡一下,但等一下就成功了。下载也耗了一点时。
    但是……转换完,还是图片从图片 PDF 变成了图片 Word 文档。
    hfxsm
        22
    hfxsm  
    OP
       2024-01-19 14:32:20 +08:00
    @Morii 这两确实好用。我的做了点新功能,加了去除读写保护。其实也支持传入密码(前端还没加)处理加密的 pdf 。
    hfxsm
        23
    hfxsm  
    OP
       2024-01-19 14:33:09 +08:00
    @stiekel 这个涉及到 OCR 技术,目前还在增加当中。扫描件不太好处理哈。
    natsuki22
        24
    natsuki22  
       2024-01-19 14:42:36 +08:00
    扫描 PDF 挺麻烦的,楼主加油做个谷歌排名第一的(
    oliver2020
        25
    oliver2020  
       2024-01-19 14:49:09 +08:00
    支持一下
    leaf
        26
    leaf  
       2024-01-19 14:54:20 +08:00
    这不是一个红海市场了么?怎么还在不断开发,有啥特色功能吗?
    hfxsm
        27
    hfxsm  
    OP
       2024-01-19 15:01:10 +08:00
    @leaf 准备加些特色功能:
    1 、对于受保护的 pdf 不能转换,去除 pdf 的保护,其他的工具没有
    2 、支持扫描件,用 OCR 技术实现还原,再导出 word
    natsuki22
        28
    natsuki22  
       2024-01-19 15:05:20 +08:00
    我是做这个方面软件推广的,1 的话一把一把的网页工具,2 的话能够做的很好的现在都没有
    2 的话有个大问题是文字识别的多语言。。。
    natsuki22
        29
    natsuki22  
       2024-01-19 15:06:19 +08:00
    能把一个小语种做好就算特性了(英语的识别已经没啥大问题了
    muyangren
        30
    muyangren  
       2024-01-19 15:19:30 +08:00
    6.4 MB 文件卡 90%不动了
    mdyh
        31
    mdyh  
       2024-01-19 15:23:35 +08:00
    一点击开始转,就弹没了
    metalvest
        32
    metalvest  
       2024-01-19 15:29:02 +08:00
    临时有转换需求的话,from pdf2docx import parse 就行了
    supuwoerc
        33
    supuwoerc  
       2024-01-19 15:34:55 +08:00
    为啥转出来多了一页空白页...
    hfxsm
        34
    hfxsm  
    OP
       2024-01-19 15:43:38 +08:00
    @natsuki22 大哥,哪些小语种需求相对多一些,准备排个计划
    oliver2020
        35
    oliver2020  
       2024-01-19 15:46:54 +08:00
    试了一下,都是几 M 的文件,有时候显示接口调用失败
    6581
        36
    6581  
       2024-01-19 15:59:25 +08:00
    花时间做这个是为了赚钱吗?还是怎样呢?感觉市场上已经有很多这种工具了。
    Felldeadbird
        37
    Felldeadbird  
       2024-01-19 16:02:42 +08:00
    效果不错,基本都可以转文本。就是转换速度慢了一点,可以接受。
    oliver2020
        38
    oliver2020  
       2024-01-19 16:04:44 +08:00
    113MB 扫描件,转换过程中自动把文件删除哈,一点征兆都没提示
    fru1t
        39
    fru1t  
       2024-01-19 16:08:28 +08:00
    还不错,试了一个纯文本的 pdf
    rupert
        40
    rupert  
       2024-01-19 16:15:28 +08:00
    我也做的一个小程序
    1018ji
        41
    1018ji  
       2024-01-19 16:31:02 +08:00
    我已阅读并遵守《信息网络传播权保护条例》

    就不能翻译下 H 啊哈哈
    zzz22333
        42
    zzz22333  
       2024-01-19 16:38:50 +08:00
    最近遇到一个硬需求,下了几个 pdf 文档,都没有目录,有时候想快速翻到某一个章节,就挺麻烦了,不知道楼主能不能做一下这个功能。
    Sirius8
        43
    Sirius8  
       2024-01-19 16:46:00 +08:00
    测试了下,效果最好的是 ilovepdf ,其次是楼主的这个和 smallpdf 。
    提个需求,希望可以支持 pdf chatgpt 翻译,最好可以自己填写 key 的
    natsuki22
        44
    natsuki22  
       2024-01-19 16:52:13 +08:00   1
    pdf 文档的目录自动创建!这个确实
    xhxh
        45
    xhxh  
       2024-01-19 17:38:59 +08:00
    啊,为啥我网址也打不开
    bug123
        46
    bug123  
       2024-01-19 17:44:29 +08:00
    楼主要做多语言的话最好别用 cn 域名,另外首页自动跳转对 SEO 不友好
    jiangk
        47
    jiangk  
       2024-01-19 18:02:21 +08:00
    打不开了
    hfxsm
        48
    hfxsm  
    OP
       2024-01-19 18:03:13 +08:00
    @bug123 首页应该怎么做啊。后端开发真的不太懂
    hfxsm
        49
    hfxsm  
    OP
       2024-01-19 18:16:52 +08:00
    @zzz22333 自动目录是吧,好的,我研究下试试。
    hfxsm
        50
    hfxsm  
    OP
       2024-01-19 18:20:35 +08:00
    @Sirius8 好的,下一步就准备把翻译加上,不过要支持 chatgpt 得在海外部署一个服务器了,国内的翻译 API 主要是阿里、腾讯、百度、讯飞提供的机器翻译的接口,百度、讯飞、阿里都有大模型接口,也可以支持翻译。
    beetlerx
        51
    beetlerx  
       2024-01-19 18:37:39 +08:00
    有开源的, 功能也挺多, 直接可以 docker 搭建
    https://github.com/Stirling-Tools/Stirling-PDF
    我用这个建了一个 自用的
    pdf.xandar.pro
    Droog
        52
    Droog  
       2024-01-19 19:11:51 +08:00
    试了下,蛮好用的。
    zhou00
        53
    zhou00  
       2024-01-19 19:19:16 +08:00
    感觉效果还不错,点赞。 顺便问下,技术栈用的是什么
    akira
        54
    akira  
       2024-01-19 20:07:15 +08:00
    @leaf 其实并不红,做的好的基本没有。 都是特么的截图
    hfxsm
        55
    hfxsm  
    OP
       2024-01-19 20:21:25 +08:00 via iPhone
    @beetlerx 功能挺全的,但是这种基于 libreoffice 转换效果都不太行。
    hfxsm
        56
    hfxsm  
    OP
       2024-01-19 20:22:38 +08:00 via iPhone
    @akira 对的,不少基于截图转的,或者转出来没有排版,没法使用。
    zsj1029
        57
    zsj1029  
       2024-01-19 22:42:18 +08:00 via iPhone
    Pdf24 这个网站,看看能不能做一个
    Aloento
        58
    Aloento  
       2024-01-20 04:19:23 +08:00
    @wizzer #15 合肥主一信息技术有限公司
    pianoer88
        59
    pianoer88  
       2024-01-20 06:06:23 +08:00 via Android
    顶一个
    Pepsigold
        60
    Pepsigold  
       2024-01-20 07:29:24 +08:00 via Android
    @hfxsm 你可以用过内中转接口?
    gby
        61
    gby  
       2024-01-20 10:48:37 +08:00
    pdf 转 word ?不是直接用 word 打开 pdf 文件就行了么。
    jixiaopeng
        62
    jixiaopeng  
       2024-01-20 12:48:35 +08:00 via iPhone
    我也开源了一个项目,但不会推广,项目自我感觉很好,哎
    haoxuexiaoyao
        63
    haoxuexiaoyao  
       2024-01-20 13:58:53 +08:00
    我只需要提取里面的每一页的表格到 excel 的话可以的么
    metalvest
        64
    metalvest  
       2024-01-20 15:47:12 +08:00 via Android
    @metalvest 这个 python 库转换出来的基本可以保持大致格式,自测转了一个四百多页的单双栏混合带大量插图的 pdf 大概每秒钟一页的速度。
    fzcf
        65
    fzcf  
       2024-01-21 14:12:42 +08:00
    请问大概是什么技术路线,方便分享下吗?
    hfxsm
        66
    hfxsm  
    OP
       2024-01-22 11:52:36 +08:00
    @zsj1029 可以的, 楼上同学提到 https://github.com/Stirling-Tools/Stirling-PDF 就可以实现。但是使用的 LibreOffice 是不能保持排版效果。

    Conversion Operations
    Convert PDFs to and from images.
    Convert any common file to PDF (using LibreOffice).
    Convert PDF to Word/Powerpoint/Others (using LibreOffice).
    Convert HTML to PDF.
    URL to PDF.
    Markdown to PDF.
    hfxsm
        67
    hfxsm  
    OP
       2024-01-22 11:53:00 +08:00
    @oliver2020 太大了,我加下文件大小限制
    hfxsm
        68
    hfxsm  
    OP
       2024-01-22 11:53:42 +08:00
    @haoxuexiaoyao 可以啊,用 pdf 转 excel 就行了
    hfxsm
        69
    hfxsm  
    OP
       2024-01-22 12:46:56 +08:00
    @fzcf 可以的,过段时间准备做一波分享
    j6711
        70
    j6711  
       2024-01-22 13:59:36 +08:00
    挺强的,会有付费计划吗?能买断吗?
    能有客户端离线使用的版本吗?有些资料只能本地处理
    hfxsm
        71
    hfxsm  
    OP
       2024-01-23 19:13:41 +08:00
    @j6711 可以聊聊,后续会推出离线版本。
    csx163
        72
    csx163  
       2024-01-25 14:24:05 +08:00
    带表格的 pdf 可以转么,目前 pdf 表格转 word 或 excel 市场上没一家能打的
    hfxsm
        73
    hfxsm  
    OP
       2024-01-25 16:18:01 +08:00
    @csx163 可以啊,试试,效果非常棒
    a5love3n
        74
    a5love3n  
       2024-03-18 10:23:02 +08:00
    老哥,你这个卖源码吗
    halozzz
        75
    halozzz  
       2024-04-11 12:47:26 +08:00
    问下老哥,表格转是基于啥技术?
    mclxly
        76
    mclxly  
       2024-04-14 10:39:56 +08:00
    扫描 PDF 现在能转么?
    hfxsm
        77
    hfxsm  
    OP
       2024-05-02 23:12:54 +08:00
    @a5love3n 上线了 API ,可以接入哈
    hfxsm
        78
    hfxsm  
    OP
       2024-05-02 23:14:00 +08:00
    @mclxly 可以,扫描的有两种方案,一种是采用开源的 ocr ,成本就我的开发成本。如果接入大厂的 ocr 比较贵
    2han9wen71an
        79
    2han9wen71an  
       184 天前
    想知道页眉页脚,还有大纲编号是如何做到精准识别的,目前看起来只有 ilovepdf 和你家支持这个
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     881 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 21:18 PVG 05:18 LAX 14:18 JFK 17:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86