CatGate - 简单粗暴的浏览器爬虫框架 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
easychen
V2EX    分享创造

CatGate - 简单粗暴的浏览器爬虫框架

  •  
  •   easychen
    easychen 2017-06-28 11:20:21 +08:00 5209 次点击
    这是一个创建于 3042 天前的主题,其中的信息可能已经有所发展或是发生改变。

    CatGate

    CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。

    演示视频

    http://weibo.com/1088413295/F9P1izhY2

    功能

    • ① CatGate 会访问这个 URL,这个 URL 应该返回一个 Json 格式的数组,每一个元素一个字符串(即网址)。点 ② 按钮即可载入数据,并可按 ③ 进行查看,会自动排重。

    • ⑤ CatGate 抓取到数据后,会直接 POST 给这个 URL,key 为 content , 通过 $_REQUEST['content'] 即可获取抓取内容。

    • ⑥ 默认一秒抓取一次,如果抓取失败太多,可以增加秒数。

    • ④ 这是一个高级用法,就是 ① 这个 URL 可以不停的新增 URL,CatGate 会自动每隔一秒(可设置)去抓取并合并进来。

    Demo

    进入 php 目录,运行 php -S localhost:8000 即可测试。

    • list.php 这个页面生成了要抓取的页面列表,默认是微博收藏的页面。
    • save.php 这个页面定义了如何处置抓到的数据,默认是保持成为文件。

    安装插件

    如果你不想或不能在 Chrome 商店安装插件,可手工安装。

    chrome > extentsion > load unpacked extension > ./ext

    License

    CC,保留签名、非商用。

    第 1 条附言    2017-06-28 19:50:37 +08:00
    4 条回复    2017-08-16 08:58:52 +08:00
    demov2
        1
    demov2  
       2017-06-28 14:59:01 +08:00
    说个小点...

    之前也写了专门抓收藏的~ 那个 URL 里的 cOntainerid= 230259 + uid ...

    感谢分享~
    wjm2038
        2
    wjm2038  
       2017-06-28 15:15:39 +08:00 via Android
    。。。链接?
    downsky
        3
    downsky  
       2017-06-28 15:34:55 +08:00
    终于看到有插件形式的抓取了。是不是有鼠标手势触发,用于抓取固定位置的数据?
    zonzin
        4
    zonzin  
       2017-08-16 08:58:52 +08:00
    视屏能清楚一点的吗?不知道怎么用?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1344 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 16:47 PVG 00:47 LAX 09:47 JFK 12:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86