一个好用的爬虫应该有什么样的功能?有什么有趣的玩法? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX    推广

一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

  •  5
     
  •   GrahamCloud 2016-11-25 18:09:47 +08:00 25893 次点击
    这是一个创建于 3247 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这两周,我们做了一个目前来看非常易用的云爬虫:

    主页在这里, zaoshu.io

    现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

    第 1 条附言    2017-02-06 12:07:22 +08:00
    我们精心制作了一个使用视频:
    http://t.cn/RJzmG8v
    第 2 条附言    2017-02-23 14:25:49 +08:00
    昨天更新了 ui ,也做了新的视频。
    http://www.bilibili.com/video/av8748581/
    183 条回复    2017-04-26 11:13:45 +08:00
    1  2  
    lins
        1
    lins  
       2016-11-26 17:38:37 +08:00   1
    能分页爬嘛?
    GrahamCloud
        2
    GrahamCloud  
    OP
       2016-11-28 11:26:13 +08:00
    @lins 可以啊,修改规则里面。
    greatghoul
        3
    greatghoul  
       2016-11-28 14:42:10 +08:00   1
    楼主选择页面的标签的那个功能能开源吗?好喜欢。
    tokoy
        4
    tokoy  
       2016-11-28 14:46:11 +08:00   1
    蛮酷的 主要用啥语言爬的?
    GrahamCloud
        5
    GrahamCloud  
    OP
       2016-11-28 15:10:36 +08:00
    @greatghoul 暂时不能,哈哈,还要完善。
    wujunze
        6
    wujunze  
       2016-11-28 17:18:35 +08:00   1
    上周已经试用了
    exalex
        7
    exalex  
       2016-11-28 17:48:44 +08:00   2
    感觉好牛逼,特别是交互酷炫
    asd103
        8
    asd103  
       2016-11-28 18:57:45 +08:00   1
    “执行出错”,能不能把出错信息贴出来?
    wshedu
        9
    wshedu  
       2016-11-28 19:02:28 +08:00   1
    我试了两个东西
    一个是小说
    一个是企业信息 tianyancha.com 这个直接 403
    小说这个不能爬分页,
    能不能从爬数据-存储到数据库整个动作写完,如果可以的话。就可以放弃火车头了
    carlding123
        10
    carlding123  
       2016-11-28 19:03:32 +08:00   1
    每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额...
    misaka20038numbe
        11
    misaka20038numbe  
       2016-11-28 19:04:46 +08:00   1
    测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的.
    GrhamCloud
        12
    GrahamCloud  
    OP
       2016-11-28 19:46:44 +08:00
    @tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-11-28 19:49:17 +08:00
    @wshedu 欢迎加我的微信, Zaoshuio
    我们想了解能不能做到更多个性化的要求。
    GrahamCloud
        14
    GrahamCloud  
    OP
       2016-11-28 19:50:06 +08:00
    @carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。
    GrahamCloud
        15
    GrahamCloud  
    OP
       2016-11-28 19:51:11 +08:00
    @misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio
    billyellow
        16
    billyellow  
       2016-11-28 20:10:48 +08:00
    蛮有意思的,支持支持
    misaka20038numbe
        17
    misaka20038numbe  
       2016-11-28 22:11:45 +08:00   1
    @GrahamCloud 原来是用了框架,怪不得.我不怎么用微信.
    wshedu
        18
    wshedu  
       2016-11-28 22:48:49 +08:00   1
    @GrahamCloud 已添加微信。就是我这个帐号
    GrahamCloud
        19
    div class="sep3"> GrahamCloud  
    OP
       2016-11-29 02:10:28 +08:00
    @misaka20038numbe 给的意见非常宝贵,感谢。
    GrahamCloud
        20
    GrahamCloud  
    OP
       2016-11-29 02:10:54 +08:00
    @wshedu 白天就加,手机拉下了。
    cougar
        21
    cougar  
       2016-11-29 09:53:16 +08:00   1
    说实话,真的很酷
    cougar
        22
    cougar  
       2016-11-29 09:54:23 +08:00   1
    不过我要的数据貌似是没获取到
    GrahamCloud
        23
    GrahamCloud  
    OP
       2016-11-29 11:38:39 +08:00
    @cougar 求问是什么数据,能帮到最好。
    cougar
        24
    cougar  
       2016-11-29 11:42:21 +08:00   1
    @GrahamCloud 我现在页面提示一直在执行中有一小时了,我的账号是 cougar999 ,在 gmail.com ,你应该能看到吧
    GrahamCloud
        25
    GrahamCloud  
    OP
       2016-11-29 11:58:15 +08:00
    @cougar 看到了,在解决。
    kenshinhu
        26
    kenshinhu  
       2016-11-29 12:10:22 +08:00   1
    哦,使用示例这里有拉勾的中山区域连接的? 这个怎样实现的?
    GrahamCloud
        27
    GrahamCloud  
    OP
       2016-11-29 13:35:31 +08:00
    @kenshinhu 结合定位。
    GrahamCloud
        28
    GrahamCloud  
    OP
       2016-11-29 15:35:34 +08:00
    @cougar 方便的话加下微信或者首页客服里聊聊吧,好像还在卡。认真解决一下。
    jaylong
        29
    jaylong  
       2016-11-29 17:27:42 +08:00   1
    邮件 token 非法
    GrahamCloud
        30
    GrahamCloud  
    OP
       2016-11-29 22:36:05 +08:00
    感谢!
    yu550461029
        31
    yu550461029  
       2016-11-30 11:12:42 +08:00   1
    打算爬一下国家统计局的行政区划,感觉不大会用呢
    GrahamCloud
        32
    GrahamCloud  
    OP
       2016-11-30 11:19:04 +08:00
    @yu550461029 想爬什么样的,具体说说?
    GreatMartial
        33
    GreatMartial  
       2016-11-30 11:25:29 +08:00 via Android   1
    支持,有空体验一下
    blackFool
        34
    blackFool  
       2016-12-01 12:00:53 +08:00   1
    界面交互不错,爬爬微信公号
    quericy
        35
    quericy  
       2016-12-02 15:14:31 +08:00   1
    页面元素只能选取,不能直接交互:
    http://www.huipinzhe.com/nanzhuang?page=1
    遇到有全屏遮罩的还得手动 F12......

    如果有的页面需要一系列操作 JS 拼接的数据,是不是就无法采集?
    GrahamCloud
        36
    GrahamCloud  
    OP
       2016-12-02 15:17:52 +08:00
    @quericy 因为上新 ui 的缘故,完成创建的步骤今天卡住了,采集方面,应该是能支持的。
    quericy
        37
    quericy  
       2016-12-02 15:22:01 +08:00   1
    @GrahamCloud 和创建步骤无关.我指的是相应页面原有的点击事件,而不是选用无用的元素.不少网站首次访问无 cookie 状态下会有全屏遮罩,这时是无法选取需要采集的列表的元素的

    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-12-02 17:10:57 +08:00
    @quericy 这个坑确实是有点大,现在还在解决。欢迎加微信: Zaoshuio
    saber000
        39
    saber000  
       2016-12-04 02:25:16 +08:00   1
    没有 api 吗
    GrahamCloud
    &bsp;   40
    GrahamCloud  
    OP
       2016-12-05 11:10:01 +08:00
    @saber000 这是这两周的安排。
    GrahamCloud
        41
    GrahamCloud  
    OP
       2016-12-06 11:17:14 +08:00
    @saber000 api 需求欢迎提交给我,微信 Zaoshuio
    lakewong
        42
    lakewong  
       2016-12-12 15:06:55 +08:00   1
    试了试爬知乎首页
    GrahamCloud
        43
    GrahamCloud  
    OP
       2016-12-12 15:18:43 +08:00
    @lakewong 不不,不能爬首页,对于知乎,将来可以通过 api 来搞。
    首页的示例里,链家,拉钩这样的,是我们的主要应用场景。
    xvx
        44
    xvx  
       2016-12-12 15:29:56 +08:00 via iPhone   1
    域名早熟?
    GrahamCloud
        45
    GrahamCloud  
    OP
       2016-12-12 17:42:42 +08:00
    @xvx 晚熟,晚熟。
    mingyun
        46
    mingyun  
       2016-12-12 23:27:15 +08:00
    厉害了我的哥,赶紧去看看
    baiyi
        47
    baiyi  
       2016-12-14 14:35:22 +08:00   1
    下回节点能放在推广吗
    9hills
        48
    9hills  
       2016-12-14 14:48:53 +08:00   1
    试试爬一下多看电子书,自己爬比较麻烦的是代理池、防抓取等还需要自己做
    GrahamCloud
        49
    GrahamCloud  
    OP
       2016-12-14 14:55:28 +08:00
    @baiyi 其实倒真不是推广,是诚心来探讨聊天来着。推广肯定会买广告位,现在产品不成熟还是求意见聊场景的阶段。
    baiyi
        50
    baiyi  
       2016-12-14 15:22:22 +08:00   1
    @GrahamCloud 嗯 加油做一个好产品!
    9hills
        51
    9hills  
       2016-12-14 15:34:36 +08:00   1
    失败了,这个失败都没有地方 debug 。。。

    就一个执行失败。。。我还是老老实实的用 scrapy 吧<_<
    hakulamatata
        52
    hakulamatata  
       2016-12-14 15:37:29 +08:00   1
    指哪爬哪能做到就已经能够很好了
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-12-14 17:19:38 +08:00
    @9hills 我去后台看下啥情况。求告知邮箱
    9hills
        54
    9hills  
      &bsp;2016-12-14 17:26:37 +08:00   1
    GrahamCloud
        55
    GrahamCloud  
    OP
       2016-12-15 12:04:05 +08:00
    @9hills 为了易用, debug 暂时不能给使用者,现在只能我们尽量帮 debug
    GrahamCloud
        56
    GrahamCloud  
    OP
       2016-12-15 12:07:33 +08:00
    @hakulamatata 产品上问题还特别特别多
    GrahamCloud
        57
    GrahamCloud  
    OP
       2016-12-15 12:07:56 +08:00
    @hakulamatata 看哪不好随时说。
    haigeek
        58
    haigeek  
       2016-12-16 15:40:30 +08:00   1
    没人试试高校的教务管理系统吗? aspx 页面,某果,界面是空白的。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-12-16 16:01:18 +08:00
    @haigeek 求告知网址!
    haigeek
        60
    haigeek  
       2016-12-16 16:45:13 +08:00   1
    @GrahamCloud http://kmustjwcxk1.kmust.edu.cn/jwweb/ 这个是登录地址,是需要账户和密码的。
    http://kmustjwcxk1.kmust.edu.cn/jwweb/MAINFRM.aspx 这个是登录上去的 但是我怕你还是打不开 但是你看后缀是 aspx 的,在页面直接是没有右键选项的。这个管理系统是青果,似乎国内用的也不少,听说是便宜。可以根据信息参考下。
    iammaping
        61
    iammapping  
       2016-12-16 16:47:12 +08:00   1
    能不能设置规则,爬完列表下钻到详细页爬其他信息
    GrahamCloud
        62
    GrahamCloud  
    OP
       2016-12-16 17:33:46 +08:00
    @iammapping 正在努力搞这个功能。
    GrahamCloud
        63
    GrahamCloud  
    OP
       2016-12-16 17:34:22 +08:00
    @haigeek 太感谢了!求加微信: Zaoshuio
    demov2
        64
    demov2  
       2016-12-23 09:43:04 +08:00   1
    以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~
    isb
        65
    isb  
       2016-12-26 12:42:29 +08:00   1
    试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。

    任务能否有个进度条。。

    还有可否增加终止任务??
    Hansah
        66
    Hansah  
       2016-12-26 12:43:14 +08:00   1
    恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。

    比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。
    RyuZheng
        67
    RyuZheng  
       2016-12-26 13:28:33 +08:00   1
    试了一下,似乎还不太行,尝试的网站是国家食品药物监管局
    http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do
    就想爬一下这些列表。
    GrahamCloud
        68
    GrahamCloud  
    OP
       2016-12-28 16:26:11 +08:00
    @isb 这个提议非常好
    GrahamCloud
        69
    GrahamCloud  
    OP
       2016-12-28 16:26:50 +08:00
    @siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题
    GrahamCloud
        70
    GrahamCloud  
    OP
       2016-12-28 16:45:49 +08:00
    @RyuZheng 这个会作为重点帮你搞定
    ivvei
        71
    ivvei  
       2016-12-28 17:12:07 +08:00   1
    多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中……
    GrahamCloud
        72
    GrahamCloud  
    OP
       2016-12-28 18:12:15 +08:00
    @ivvei 应该是几秒钟就该分析好了,是什么网站。
    Hansah
        73
    Hansah  
       2016-12-28 19:19:13 +08:00   1
    @GrahamCloud http://videos.yizhansou.com/
    这个链接,之前论坛没断好 url 。
    ivvei
        74
    ivvei  
       2016-12-29 09:58:52 +08:00   1
    @GrahamCloud htt://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页
    ivvei
        75
    ivvei  
       2016-12-29 10:08:52 +08:00   1
    @GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题……
    GrahamCloud
        76
    GrahamCloud  
    OP
       2016-12-29 12:45:21 +08:00
    @ivvei 昨天有一段时间是出现了网络问题,嗯。
    GrahamCloud
        77
    GrahamCloud  
    OP
       2016-12-29 12:45:48 +08:00
    @ivvei 这个网站需要的数据,你看都能按你要求下来不。
    ivvei
        78
    ivvei  
       2016-12-29 16:18:58 +08:00   1
    @GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。
    GrahamCloud
        79
    GrahamCloud  
    OP
       2016-12-29 18:14:26 +08:00
    @ivvei 翻页是支持的,在你的控制台地址设置里面。
    isnowify
        80
    isnowify  
       2017-02-06 12:40:08 +08:00 via Android   1
    很赞!
    cxl008
        81
    cxl008  
       2017-02-06 12:54:23 +08:00   1
    坐等开源
    bozong
        82
    bozong  
       2017-02-06 13:01:19 +08:00   1
    @wshedu #9 爬过企业信息吗
    haoxuexiaoyao
        83
    haoxuexiaoyao  
       2017-02-06 13:28:02 +08:00   1
    这个怎么用呢 爬的数据能自己保存到数据库么
    haoxuexiaoyao
        84
    haoxuexiaoyao  
       2017-02-06 13:30:04 +08:00   1
    一直提示链接超时
    firldlove
        85
    firldlove  
       2017-02-06 14:11:48 +08:00   1
    刚刚用 试了一下,结果是 ERR_CONNECTION_RESET
    ELLIA
        86
    ELLIA  
       2017-02-06 14:13:31 +08:00   1
    一直出错啊~
    GrahamCloud
        87
    GrahamCloud  
    OP
       2017-02-06 14:34:29 +08:00
    @haoxuexiaoyao
    @firldlove
    @ELLIA 感谢提出问题,正在紧张处理了。
    GrahamCloud
        88
    GrahamCloud  
    OP
       2017-02-06 14:34:49 +08:00
    @haoxuexiaoyao 爬的数据可以保存到数据库
    GrahamCloud
        89
    GrahamCloud  
    OP
       2017-02-06 14:37:17 +08:00
    @isnowify 谢谢支持!
    GrahamCloud
        90
    GrahamCloud  
    OP
       2017-02-06 14:37:43 +08:00
    @cxl008 一直在上新功能,估计可预见的时间不会开源
    isnowify
        91
    isnowify  
       2017-02-06 14:42:51 +08:00 via Android   1
    @GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果
    lwd2136
        92
    lwd2136  
       2017-02-06 15:14:18 +08:00   1
    ELLIA
        93
    ELLIA  
       2017-02-06 15:15:34 +08:00   1
    嗯,现在好像能用了……
    ybh37
        94
    ybh37  
       2017-02-06 15:25:48 +08:00   1
    试了一下 百度新闻,失败 4 次
    难道我姿势不对?
    sphawkcn
        95
    sphawkcn  
       2017-02-06 15:4230 +08:00   1
    @GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。
    ELLIA
        96
    ELLIA  
       2017-02-06 15:43:06 +08:00   1
    @ybh37 我这边试了别的,也都是出错
    GrahamCloud
        97
    GrahamCloud  
    OP
       2017-02-06 17:57:06 +08:00
    @isnowify 这个功能马上就会上
    GrahamCloud
        98
    GrahamCloud  
    OP
       2017-02-06 17:57:52 +08:00
    @lwd2136
    @ybh37 今天负载异常高,正在努力扩容。
    GrahamCloud
        99
    GrahamCloud  
    OP
       2017-02-06 17:58:55 +08:00
    @sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio
    ELLIA
        100
    ELLIA  
       2017-02-07 13:22:04 +08:00   1
    今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。
    其次是目前只支持定时一天爬一次是吗?还是未来也这样。

    最后就是我设了邮箱,但是没有收到邮件……
    1  2  
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2741 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 14:51 PVG 22:51 LAX 07:51 JFK 10:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86