
方案一: python 解析 docx 格式支持良好但对 doc 格式支持很差,故希望 doc 转为 docx 格式,有什么好办法? 方案二:将 doc 转为 html 格式,然后解析 html ,测试后发现如果数据量大了支持也不好 大家有什么好办法吗?
注:有近 1w 个*.doc 文档,每个文档 100Mz 左右
1 vicalloy 2016-10-21 14:44:24 +08:00 是需要提取 doc 里的内容? https://github.com/dagwieers/unoconv 用这个可以将 doc 转成 html 或 docx 。 |
3 dinosjk 2016-10-21 22:39:22 +08:00 py 通过 office 之类的软件打开 doc ,转换成 docx ,然后自由发挥。这样呢? |
4 dinosjk 2016-10-21 22:40:00 +08:00 之前转换了 2000 多个 doc 入 pdf 用的这种方式 |
5 xuboying 2016-10-22 14:59:26 +08:00 via iPhone 这种特殊需求还不如现学 VBA 三下五除二,别信 Python 的唯有唯一正确解的梦话。 Perler 说过黑猫白猫,都是好猫 |
6 zungmou 2016-11-01 09:26:10 +08:00 via iPhone 用 c#调用 office 接口操作 word 进行解析,应该很容易。 |