就这个http://oeeee.cc/qSUavR
用什么东东做的?很想知道这是一种好方法还是一种折中办法?
![]() | 1 learnshare 2015-08-11 15:47:58 +08:00 并不知道你在说什么 |
![]() | 2 402645707 2015-08-11 15:49:17 +08:00 via Android 爬虫爬的垃圾站 |
![]() | 3 402645707 2015-08-11 15:49:56 +08:00 via Android 好吧当我没说, |
![]() | 4 pango 2015-08-11 15:51:52 +08:00 难道是ocr自动识别的? |
![]() | 5 Agromania 2015-08-11 15:55:35 +08:00 这个大概是人工或自动去收集了很多说明书的pdf,转成图片,很不错的点子 以PHP为例,pdf转图片很简单: <?php $im = new imagick('file.pdf[0]'); $im->setImageFormat('jpg'); header('Content-Type: image/jpeg'); echo $im; ?> |
![]() | 6 pimin 2015-08-11 16:10:20 +08:00 只是解析pdf吧 |
![]() | 7 manualplus OP @Agromania 转成图片这个好理解,方法也很多,但它这个解析提取出文本内容(按页提取并自动加上超链接和做分行处理)思路很好。可能就是不知用什么方法和技术方案实现的? |
8 paperpeper 2015-08-12 13:22:11 +08:00 @manualplus ocr |
![]() | 9 manualplus OP @Agromania 点子很好吧,我们也在做说明书服务,欢迎交流 |