
1 xiri 2020-01-14 14:38:01 +08:00 via Android pdf 对信息自动化处理来说简直是噩梦 |
2 EricInBj 2020-01-14 14:39:02 +08:00 应该有错误输出的,大概率是字体缺失? |
3 BryceBu OP |
4 PopRain 2020-01-14 15:25:46 +08:00 我觉得是类库不支持嵌入字体 |
5 Rorysky 2020-01-14 15:26:39 +08:00 pymupdf 试试 |
6 BryceBu OP 刚刚在 Ubuntu 上试了一下,可以识别了 我下载的 STSong-light 字体文件都不能安装 看来原因还是 Windows 不支持这个字体? |
7 huaxie1988 2020-07-09 17:54:57 +08:00 为什么我 windows 和 centos 都读不出来中文 |
8 BryceBu OP @huaxie1988 #7 先用工具识别出 pdf 的字体,再查你的系统支不支持这个字体 |
9 aec4d 2020-07-14 12:01:39 +08:00 先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片 接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本 |