这是一个我花费了数月时间开发的在线 PDF 转换工具pdf2docx.cn,它不仅支持将 PDF 转换为 Word ,还包括 PDF 转 Excel 、PDF 转 PPT 等功能。今天,我想在 V2EX 这个技术社区分享我的项目,并且真诚地希望大家能试用并给出宝贵的反馈和建议。
项目背景: 我经常遇到需要将 PDF 文件转换为可编辑格式的情况。市面上虽然有许多此类工具,但往往难以满足高效率和高保真的需求。因此,我决定自己动手,打造一个更符合开发者和专业人士需求的工具。
主要特性:
技术挑战: 在开发过程中,我遇到了一些技术挑战,比如如何有效地处理复杂的 PDF 布局,如何确保转换后文档的格式不乱。
请求大家的反馈:
访问链接: www.pdf2docx.cn
期待大家的回复和讨论!
![]() | 1 dashupc 2024-01-19 13:30:18 +08:00 打不开啊,老铁 |
![]() | 2 xunqin 2024-01-19 13:32:51 +08:00 可以的 |
![]() | 5 dashupc 2024-01-19 13:48:26 +08:00 上传了个 36M 的卡 90%不动了 |
![]() | 6 hfxsm OP @dashupc 收到,我来优化下,36M 的 pdf 文件有点大的,可能需要花点时间转换,下一版本准备把需要转换时长也展示出来。 |
7 jorneyr 2024-01-19 13:53:02 +08:00 2.3M 的 pdf 转 word ,也是 90% 就卡住了,后端是对 90% 情有独钟吗? |
8 listenerri 2024-01-19 13:55:38 +08:00 域名挺好 |
![]() | 9 dashupc 2024-01-19 13:56:25 +08:00 应用文写作…506.pdf 58.7 MB 转换中 90% 删除 又卡了 |
10 sjqmmd 2024-01-19 13:56:52 +08:00 同卡在 90% |
![]() | 11 proxychains 2024-01-19 13:58:50 +08:00 ERR_EMPTY_RESPONSE |
![]() | 12 LHN 2024-01-19 13:59:48 +08:00 45KB 的 pdf 卡主了 |
![]() | 13 Ghostsss 2024-01-19 14:00:41 +08:00 7.7 MB 的文件一样卡到 90%了 |
![]() | 14 hfxsm OP 家人们,我的小机器好像顶不住大文件转换,等我优化几波再来更新!!! |
![]() | 15 wizzer 2024-01-19 14:02:26 +08:00 合肥本地的公司啊 |
![]() | 16 jstony 2024-01-19 14:03:34 +08:00 大家别试了,甲方付款才付到 90%,还有 10%尾款没收到:) |
17 natsuki22 2024-01-19 14:19:49 +08:00 你这个网址。。。。。pdf2docx.com 更好用( |
19 thanning0 2024-01-19 14:25:05 +08:00 随手转了篇 PDF 文献到 word 试试,除了数学符号公式转换的效果不太好(有的符号居然是图片?),其他的格式,表格,算法框,超链接都挺好的,给楼主点赞。 建议如果能把数学公式转换处理好,比如把 latex 编译的 pdf 数学公式转成 mathtype 的数学公式就太好了。 |
20 28Sv0ngQfIE7Yloe 2024-01-19 14:28:50 +08:00 |
![]() | 21 stiekel 2024-01-19 14:30:53 +08:00 实测 34.2MB 文件,的确 90%会卡一下,但等一下就成功了。下载也耗了一点时。 但是……转换完,还是图片从图片 PDF 变成了图片 Word 文档。 |
24 natsuki22 2024-01-19 14:42:36 +08:00 扫描 PDF 挺麻烦的,楼主加油做个谷歌排名第一的( |
![]() | 25 oliver2020 2024-01-19 14:49:09 +08:00 支持一下 |
![]() | 26 leaf 2024-01-19 14:54:20 +08:00 这不是一个红海市场了么?怎么还在不断开发,有啥特色功能吗? |
![]() | 27 hfxsm OP |
28 natsuki22 2024-01-19 15:05:20 +08:00 我是做这个方面软件推广的,1 的话一把一把的网页工具,2 的话能够做的很好的现在都没有 2 的话有个大问题是文字识别的多语言。。。 |
29 natsuki22 2024-01-19 15:06:19 +08:00 能把一个小语种做好就算特性了(英语的识别已经没啥大问题了 |
![]() | 30 muyangren 2024-01-19 15:19:30 +08:00 6.4 MB 文件卡 90%不动了 |
![]() | 31 mdyh 2024-01-19 15:23:35 +08:00 一点击开始转,就弹没了 |
32 metalvest 2024-01-19 15:29:02 +08:00 临时有转换需求的话,from pdf2docx import parse 就行了 |
![]() | 33 supuwoerc 2024-01-19 15:34:55 +08:00 为啥转出来多了一页空白页... |
![]() | 35 oliver2020 2024-01-19 15:46:54 +08:00 试了一下,都是几 M 的文件,有时候显示接口调用失败 |
![]() | 36 6581 2024-01-19 15:59:25 +08:00 花时间做这个是为了赚钱吗?还是怎样呢?感觉市场上已经有很多这种工具了。 |
![]() | 37 Felldeadbird 2024-01-19 16:02:42 +08:00 效果不错,基本都可以转文本。就是转换速度慢了一点,可以接受。 |
![]() | 38 oliver2020 2024-01-19 16:04:44 +08:00 113MB 扫描件,转换过程中自动把文件删除哈,一点征兆都没提示 |
39 fru1t 2024-01-19 16:08:28 +08:00 还不错,试了一个纯文本的 pdf |
![]() | 40 rupert 2024-01-19 16:15:28 +08:00 |
41 1018ji 2024-01-19 16:31:02 +08:00 我已阅读并遵守《信息网络传播权保护条例》 就不能翻译下 H 啊哈哈 |
42 zzz22333 2024-01-19 16:38:50 +08:00 最近遇到一个硬需求,下了几个 pdf 文档,都没有目录,有时候想快速翻到某一个章节,就挺麻烦了,不知道楼主能不能做一下这个功能。 |
![]() | 43 Sirius8 2024-01-19 16:46:00 +08:00 测试了下,效果最好的是 ilovepdf ,其次是楼主的这个和 smallpdf 。 提个需求,希望可以支持 pdf chatgpt 翻译,最好可以自己填写 key 的 |
44 natsuki22 2024-01-19 16:52:13 +08:00 ![]() pdf 文档的目录自动创建!这个确实 |
![]() | 45 xhxh 2024-01-19 17:38:59 +08:00 啊,为啥我网址也打不开 |
46 bug123 2024-01-19 17:44:29 +08:00 楼主要做多语言的话最好别用 cn 域名,另外首页自动跳转对 SEO 不友好 |
47 jiangk 2024-01-19 18:02:21 +08:00 打不开了 |
![]() | 50 hfxsm OP @Sirius8 好的,下一步就准备把翻译加上,不过要支持 chatgpt 得在海外部署一个服务器了,国内的翻译 API 主要是阿里、腾讯、百度、讯飞提供的机器翻译的接口,百度、讯飞、阿里都有大模型接口,也可以支持翻译。 |
![]() | 51 beetlerx 2024-01-19 18:37:39 +08:00 |
![]() | 52 Droog 2024-01-19 19:11:51 +08:00 试了下,蛮好用的。 |
![]() | 53 zhou00 2024-01-19 19:19:16 +08:00 感觉效果还不错,点赞。 顺便问下,技术栈用的是什么 |
![]() | 57 zsj1029 2024-01-19 22:42:18 +08:00 via iPhone Pdf24 这个网站,看看能不能做一个 |
![]() | 59 pianoer88 2024-01-20 06:06:23 +08:00 via Android 顶一个 |
61 gby 2024-01-20 10:48:37 +08:00 pdf 转 word ?不是直接用 word 打开 pdf 文件就行了么。 |
![]() | 62 jixiaopeng 2024-01-20 12:48:35 +08:00 via iPhone 我也开源了一个项目,但不会推广,项目自我感觉很好,哎 |
63 haoxuexiaoyao 2024-01-20 13:58:53 +08:00 我只需要提取里面的每一页的表格到 excel 的话可以的么 |
64 metalvest 2024-01-20 15:47:12 +08:00 via Android @metalvest 这个 python 库转换出来的基本可以保持大致格式,自测转了一个四百多页的单双栏混合带大量插图的 pdf 大概每秒钟一页的速度。 |
![]() | 65 fzcf 2024-01-21 14:12:42 +08:00 请问大概是什么技术路线,方便分享下吗? |
![]() | 66 hfxsm OP @zsj1029 可以的, 楼上同学提到 https://github.com/Stirling-Tools/Stirling-PDF 就可以实现。但是使用的 LibreOffice 是不能保持排版效果。 Conversion Operations Convert PDFs to and from images. Convert any common file to PDF (using LibreOffice). Convert PDF to Word/Powerpoint/Others (using LibreOffice). Convert HTML to PDF. URL to PDF. Markdown to PDF. |
![]() | 67 hfxsm OP @oliver2020 太大了,我加下文件大小限制 |
![]() | 68 hfxsm OP @haoxuexiaoyao 可以啊,用 pdf 转 excel 就行了 |
![]() | 70 j6711 2024-01-22 13:59:36 +08:00 挺强的,会有付费计划吗?能买断吗? 能有客户端离线使用的版本吗?有些资料只能本地处理 |
![]() | 72 csx163 2024-01-25 14:24:05 +08:00 带表格的 pdf 可以转么,目前 pdf 表格转 word 或 excel 市场上没一家能打的 |
74 a5love3n 2024-03-18 10:23:02 +08:00 老哥,你这个卖源码吗 |
75 halozzz 2024-04-11 12:47:26 +08:00 问下老哥,表格转是基于啥技术? |
![]() | 76 mclxly 2024-04-14 10:39:56 +08:00 扫描 PDF 现在能转么? |
79 2han9wen71an 184 天前 想知道页眉页脚,还有大纲编号是如何做到精准识别的,目前看起来只有 ilovepdf 和你家支持这个 |