我有一个pdf文档,其中的一些页面里,包含一些直线或曲线标注的注释。
我想要做以下事情:
1. 让python认出这些注释
2. python把带注释的页提取出来合成一份新的pdf文件。
关于2:目前用pyPdf找到一些思路,如果能返回我想要的页码,这个问题就容易解决了。
关于1:这个还没搞清楚。查看了PDFMiner,由于我是初学编程,网上又没有特别对口的实例,所以未果;也有人推荐poppler,这个好像还不是纯python写的,貌似比PDFMiner还要难上手。
请问大家有什么好办法么?
我想要做以下事情:
1. 让python认出这些注释
2. python把带注释的页提取出来合成一份新的pdf文件。
关于2:目前用pyPdf找到一些思路,如果能返回我想要的页码,这个问题就容易解决了。
关于1:这个还没搞清楚。查看了PDFMiner,由于我是初学编程,网上又没有特别对口的实例,所以未果;也有人推荐poppler,这个好像还不是纯python写的,貌似比PDFMiner还要难上手。
请问大家有什么好办法么?
