
下载地址: https://github.com/zorlan/skycaiji
好多爬虫都是 python 的,作为世界上最好的语言,做爬虫怎么少得了 php 呢!
蓝天采集器 可视化的采集系统(和 cms 一样使用),可以和网站对接,将采集到的数据实时入库 无需你会代码,直接编写采集规绑定数据库入库即可!
主要功能:
全自动定时定量采集
绝大多数文章智能识别
支持正则表达式、xpath、json 匹配数据
支持多级、多页、分页采集
几乎能采集任何形式的数据内容(小说、影视、列表数据等等)
无缝耦合各种 cms 程序实现免登陆发布数据
还可以直接导入数据库、导出 excel、生成 api 接口等等
图片下载到本地服务器
ip 代理等等
1 qianmeng 2018 年 7 月 19 日 via Android 简单看了看文档,挺不错 |
2 xxx749 2018 年 7 月 19 日 via Android js 天下第一! |
3 imdong 2018 年 7 月 19 日 确实还是挺简单的,先标记一下,感觉后期能用到。 |
4 Rekkles 2018 年 7 月 19 日 可以 已 star |
5 zqjilove 2018 年 7 月 19 日 已 star,粗略的看文档,和老牌的类似工具,差不多。貌似没看到,可以采集列表数据信息,同时和内容字段一起入库的情况。不知道是否功能存在? |
6 baiyun888 2018 年 7 月 19 日 很不错哦 xpath 是不是有些类似 dom 采集 |
7 jamesliu 2018 年 7 月 19 日 star |
8 1O 2018 年 7 月 19 日 已 star |
9 zuohuadong 2018 年 7 月 19 日 php-fpm 就不要拿出来说了~~ 做采集真的很低效。 这类任务,老老实实异步非阻塞 |
10 chinaglwo 2018 年 7 月 19 日 动态页可以采集吗 |
13 zorlan OP @zuohuadong 大佬,不妨分享下经验 |
15 richChou 2018 年 7 月 19 日 via iPhone 厉害,已 star |
16 mingyun 2018 年 7 月 19 日 注意:PHP5.3dev 版本和 PHP6 均不支持 表示没有见过 php6.。。 |
19 bed 2018 年 8 月 1 日 @zorlan 看完你的 licenses http://www.skycaiji.com/licenses 再看你的 composer.json 相互都是冲突的,我觉得应该直接从 github 上直接 fork 就好 :) |