下载地址: https://github.com/zorlan/skycaiji
好多爬虫都是 python 的,作为世界上最好的语言,做爬虫怎么少得了 php 呢!
蓝天采集器 可视化的采集系统(和 cms 一样使用),可以和网站对接,将采集到的数据实时入库 无需你代码,直接编写采集规则绑定数据库入库即可!
主要功能:
全自动定时定量采集
绝大多数文章智能识别
支持正则表达式、xpath、json 匹配数据
支持多级、多页、分页采集
几乎能采集任何形式的数据内容(小说、影视、列表数据等等)
无缝耦合各种 cms 程序实现免登陆发布数据
还可以直接导入数据库、导出 excel、生成 api 接口等等
图片下载到本地服务器
ip 代理等等
1 qianmeng 2018-07-19 14:06:24 +08:00 via Android 简单看了看文档,挺不错 |
![]() | 2 xxx749 2018-07-19 14:09:19 +08:00 via Android js 天下第一! |
![]() | 3 imdong 2018-07-19 14:21:33 +08:00 确实还是挺简单的,先标记一下,感觉后期能用到。 |
![]() | 4 Rekkles 2018-07-19 14:22:00 +08:00 可以 已 star |
![]() | 5 zqjilove 2018-07-19 16:29:55 +08:00 已 star,粗略的看文档,和老牌的类似工具,差不多。貌似没看到,可以采集列表数据信息,同时和内容字段一起入库的情况。不知道是否功能存在? |
![]() | 6 baiyun888 2018-07-19 17:56:32 +08:00 很不错哦 xpath 是不是有些类似 dom 采集 |
![]() | 7 jamesliu 2018-07-19 18:07:06 +08:00 star |
![]() | 8 1O 2018-07-19 18:09:43 +08:00 已 star |
![]() | 9 zuohuadong 2018-07-19 18:11:17 +08:00 php-fpm 就不要拿出来说了~~ 做采集真的很低效。 这类任务,老老实实异步非阻塞 |
![]() | 10 chinaglwo 2018-07-19 18:15:43 +08:00 动态页可以采集吗 |
13 zorlan OP @zuohuadong 大佬,不妨分享下经验 |
![]() | 15 richChou 2018-07-19 20:24:16 +08:00 via iPhone 厉害,已 star |
16 mingyun 2018-07-19 23:13:14 +08:00 注意:PHP5.3dev 版本和 PHP6 均不支持 表示没有见过 php6.。。 |
![]() | 19 bed 2018-08-01 22:46:42 +08:00 @zorlan 看完你的 licenses http://www.skycaiji.com/licenses 再看你的 composer.json 相互都是冲突的,我觉得应该直接从 github 上直接 fork 就好 :) |