云爬虫 与 爬虫软件的认真探讨 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX    推广

云爬虫 与 爬虫软件的认真探讨

  •  1
     
  •   GrahamCloud 2017-05-03 13:38:38 +08:00 11403 次点击
    这是一个创建于 3090 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今年是造数云爬虫快速测试的一年

    如今爬虫方面的同行很多,例如 import.io 等等。V 站也看到了非常好的作品,比如 hicrawler 等等。

    学到很多。

    这个帖子希望和大家一起探讨,各种爬虫的应用场景以及利弊等等。

    第 1 条附言    2017-05-10 10:24:31 +08:00
    评论区发现不错的产品,大家也可以关注一下: https://github.com/keenwon/antcolony
    65 条回复    2017-05-17 11:44:15 +08:00
    gamecreating
        1
    gamecreating  
       2017-05-03 13:39:46 +08:00   1
    自己定制爬虫 靠谱点 你这个只能给小白用...
    GrahamCloud
        2
    GrahamCloud  
    OP
       2017-05-03 13:55:35 +08:00
    @gamecreating 大型定制爬虫我们也做,但是很多同类网站要自己一个一个写确实不如 用我们网站(恩!)
    charli
        3
    charli  
       2017-05-03 14:57:53 +08:00   1
    “造数的采集节点遍布全国 7 个机房上百万个 IP ”
    真有怎么多 ip 么
    GrahamCloud
        4
    GrahamCloud  
    OP
       2017-05-03 15:15:34 +08:00
    @charli 这倒是真的,看得好细致啊
    gimp
        5
    gimp  
       2017-05-03 15:37:05 +08:00   1
    测试了一个网站,体验比几个月前好了不少
    GrahamCloud
        6
    GrahamCloud  
    OP
       2017-05-03 16:12:17 +08:00
    @gimp 感谢关注,想讨论各种爬虫用起来的感受。
    malusama
        7
    malusama  
       2017-05-03 16:16:59 +08:00   1
    我就觉得好贵啊……
    kangsgo
        8
    kangsgo  
       2017-05-03 16:28:35 +08:00   1
    爬虫失败,失败原因:链接超时
    LokiSharp
        9
    LokiSharp  
       2017-05-03 16:31:39 +08:00   1
    1 块钱 50 个页面太贵了吧
    42V0CdLjCU494ogF
        10
    42V0CdLjCU494ogF  
       2017-05-03 17:02:58 +08:00   1
    造数很好,就是还不能模拟登陆状态,有些网站不登陆情况下没法爬
    GrahamCloud
        11
    GrahamCloud  
    OP
       2017-05-03 17:23:03 +08:00
    @malusama
    @LokiSharp 价格也是一个要认真探讨的地方,目前可以给大家赠一些。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2017-05-03 17:29:59 +08:00   1
    @kangsgo 求问具体情况
    kangsgo
        13
    kangsgo  
       2017-05-03 17:56:28 +08:00   1/span>
    @GrahamCloud 好像是源网址不稳定,哎呀,最近老范这种错误,真是抱歉呀
    kchum
        14
    kchum  
       2017-05-03 18:24:33 +08:00   1
    试用了下,感觉还有很大进步空间
    要不然简单的爬虫真可以,另外 api 也是一个问题
    GrahamCloud
        15
    GrahamCloud  
    OP
       2017-05-03 18:44:44 +08:00
    @kchum 平时爬什么网站啊
    qwe321
        16
    qwe321  
       2017-05-03 18:51:42 +08:00   4
    @charli 有的,类似于 www.qgvps.com 这种提供了大量地区的拨号 VPS,可以自己搭建代理 IP
    GrahamCloud
        17
    GrahamCloud  
    OP
       2017-05-04 10:53:08 +08:00
    @qwe321 老铁 666
    BiggerLonger
        18
    BiggerLonger  
       2017-05-04 11:35:27 +08:00
    可以解 wp protected iframe 的
    acoder2013
        19
    acoder2013  
       2017-05-04 11:40:59 +08:00   1
    不支持 api?
    fuxkcsdn
        20
    fuxkcsdn  
       2017-05-04 11:53:54 +08:00
    @qwe321 感谢分享,之前在淘宝上联系过几个卖家,都只有 win 系统
    nicoljiang
        21
    nicoljiang  
    PRO
       2017-05-04 12:48:27 +08:00   1
    缺乏场景,性价比极低。只能说,鼓励一下。
    GrahamCloud
        22
    GrahamCloud  
    OP
       2017-05-04 17:09:28 +08:00
    @acoder2013 这个也特别想听听大家怎么说,我们马上要推出一版。
    GrahamCloud
        23
    GrahamCloud  
    OP
       2017-05-04 17:09:38 +08:00
    @nicoljiang 感谢
    shenfu1991
        24
    shenfu1991  
       2017-05-04 17:15:10 +08:00   1
    问个喜感的问题:抓取彩票数据能不能预测彩票?(手动滑稽,没有其他意思。。。)
    wuhx
        25
    wuhx  
       2017-05-04 18:27:38 +08:00   1
    CloudMonad 走的是另外一个思路,还特地和造数比较了一下

    t/356871
    GrahamCloud
        26
    GrahamCloud  
    OP
       2017-05-05 11:16:16 +08:00
    @shenfu1991 依据有限的数据啥都能预测,然而 有用没用,你懂得
    GrahamCloud
        27
    GrahamCloud  
    OP
       2017-05-05 11:16:35 +08:00
    @wuhx 学习!
    GrahamCloud
        28
    GrahamCloud  
    OP
       2017-05-05 11:19:54 +08:00
    @wuhx 求联系,微信:Zaoshuio
    Moker
        29
    Moker  
       2017-05-05 11:45:33 +08:00   1
    为什么我觉得 LZ 是在 SEO 每篇帖子都带不一样描述指向同样的链接?
    GrahamCloud
        30
    GrahamCloud  
    OP
       2017-05-05 13:29:01 +08:00
    @Moker SEO 不主要,主要的是产品内容不能光靠我们自己想,得不停增加大家交流的空间。
    15015613
        31
    15015613  
       2017-05-06 10:23:32 +08:00   2
    @GrahamCloud
    问题太多了,直接没办法用。

    举个例子吧。
    http://book.sfacg.com/
    抓取每日首页推荐情况。
    之前便有人反映过,页面的弹出层无法点击去除,现在这个问题还在,没有改善。
    不过这个问题不太影响本次抓取,便不说了。

    先选取首页的轮播图,只能得到图片的 url 和小说页面的 url,得不到小说的名称,但原始数据里头是含有小说名称的。
    ```
    <img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
    ```
    然后下面的 人气风向标、最近有意思的新书,由于有重叠层,选取的数据有错误,基本不能用。

    仅仅最后 封面推荐爬取的还算符合要求。

    再打开小说详情页,不支持异步加载,评论数量完全无法抓取。

    还有选取的数据不支持后期处理,不支持分组。
    不支持图片的爬取下载,只能爬取文字资料。

    就这服务水平、服务质量也好意思大言不惭的说,“所有你需要的功能”、“最好的云爬虫工具”。

    价格 1 元 50 个页面,太贵了,这样的质量也好意思收费这么贵?

    对了还不支持登录爬取,这点忘了。

    @Moker
    我也是这样觉得,看他们隔两天上来发一次广告,真是烦人的很。
    15015613
        32
    15015613  
       2017-05-06 10:37:41 +08:00
    @GrahamCloud
    总体来说,和刚出来时没有多少提高,刚刚出来功能不完善可以理解,但过了这么久还没有提高,那就太……
    GrahamCloud
        33
    GrahamCloud  
    OP
       2017-05-08 10:31:58 +08:00
    @15015613 评论很中肯,说的很对,感谢花这么多时间整理意见。我们会针对你的问题做一些改进。定价 我个人也觉得高了,尝试阶段~
    求加 微信:Zaoshuio
    buseni
        34
    buseni  
       2017-05-08 11:26:47 +08:00   1
    牛逼,我看国外有个东西,你随便给一个地址,人家就能给你爬下来
    dovis
        35
    dovis  
       2017-05-08 11:41:31 +08:00
    @buseni 比如?
    GrahamCloud
        36
    GrahamCloud  
    OP
       2017-05-08 12:50:31 +08:00
    @buseni 说的是 import io 吧
    GrahamCloud
        37
    GrahamCloud  
    OP
       2017-05-08 12:51:05 +08:00
    @buseni 怎么看到的
    tonyaiken
        38
    tonyaiken  
       2017-05-08 13:31:53 +08:00   1
    开的同类帖子太多,广告嫌疑
    GrahamCloud
        39
    GrahamCloud  
    OP
       2017-05-08 14:11:24 +08:00
    @tonyaiken 这个帖子不是广告,同类产品 都列出来 求探讨了。
    liuxu
        40
    liuxu  
       2017-05-08 14:15:08 +08:00   1
    不是广告为啥要顶置。。
    GrahamCloud
        41
    GrahamCloud  
    OP
       2017-05-08 14:35:24 +08:00
    @liuxu 不置顶哪有人聊啊
    GrahamCloud
        42
    GrahamCloud  
    OP
       2017-05-08 14:35:38 +08:00
    @liuxu 这么小众的工具
    liuxu
        43
    liuxu  
       2017-05-08 15:02:39 +08:00   1
    @GrahamCloud 那你干嘛把你们网站首页放帖子第一行。。
    wujunze
        44
    wujunze  
       2017-05-08 15:06:24 +08:00   1
    比之前体验好了很多 继续加油
    GrahamCloud
        45
    GrahamCloud  
    OP
       2017-05-08 15:14:40 +08:00
    @liuxu 开宗明义嘛,实际点进来的又没几个……先来用用看吧,不要讨论细枝末节的了
    GrahamCloud
        46
    GrahamCloud  
    OP
       2017-05-08 15:15:55 +08:00
    @liuxu v 站 给出的意见,价值还是远大于各种点击的。
    liuxu
        47
    liuxu  
       2017-05-08 15:32:40 +08:00   1
    @GrahamCloud
    我倒是差一个爬虫管理平台,也没时间去写。
    我有一些小脚本不好管理,例如登录之后签到,ss 帐号状态更新之类的,每一个功能虽小,但是数量多。。

    你们的功能可不可以建立一个组,每个组管理一些实例,每个实例可以登录,抓数据,也可以帮忙签到。。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2017-05-08 15:56:20 +08:00
    @liuxu 求看一看,求加微信:Zaoshuio
    GrahamCloud
        49
    GrahamCloud  
    OP
       2017-05-08 15:57:07 +08:00
    @wujunze 其实我们知道 问题还多着呢 @_@
    Moker
        50
    Moker  
       2017-05-08 16:13:46 +08:00
    @shenfu1991 真的不能,如果是双色球这种的,走势图本来就是公开的,本来就是随机根本没用。另外竞彩的话,有一定可能,但是数据要全要全,当然概率也很低很低,未知因素太多,另外即使猜中,赔率早就被庄家做好,收益低风险大。
    am0zing
        51
    am0zing  
       2017-05-08 16:43:41 +08:00   2
    到了安利一波的时候了,你猜这是什么爬虫? https://github.com/keenwon/antcolony
    GrahamCloud
        52
    GrahamCloud  
    OP
       2017-05-08 17:47:10 +08:00
    @liuxu 比较忙不好意思没有及时回复,以后有问题再加我。
    GrahamCloud
        53
    GrahamCloud  
    OP
       2017-05-08 17:56:51 +08:00
    @am0zing 自己开发的站点么?
    am0zing
        54
    am0zing  
       2017-05-08 22:02:05 +08:00   1
    @GrahamCloud

    是的,站点已经停了,因为数据太多放不下了。但是爬虫是可以用的
    wujunze
        span class="no">55
    wujunze  
       2017-05-09 13:59:30 +08:00
    @am0zing 感谢分享 很赞的程序
    GrahamCloud
        56
    GrahamCloud  
    OP
       2017-05-10 10:23:56 +08:00   1
    @wujunze 继续赞一下这个,挂一个 append。
    XiaoFaye
        57
    XiaoFaye  
       2017-05-10 11:40:23 +08:00   1
    用造数爬造数是什么后果?
    GrahamCloud
        58
    GrahamCloud  
    OP
       2017-05-10 14:06:27 +08:00
    @XiaoFaye 好问题,可惜爬不了。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2017-05-10 14:06:44 +08:00
    @XiaoFaye 可以大胆勇敢热情的尝试一下。
    GrahamCloud
        60
    GrahamCloud  
    OP
       2017-05-10 16:33:24 +08:00   1
    @am0zing 给你 挂在 apend 上面了,很 nice
    am0zing
        61
    am0zing  
       2017-05-10 16:35:35 +08:00   1
    @GrahamCloud O(∩_∩)O
    GrahamCloud
        62
    GrahamCloud  
    OP
       2017-05-12 11:11:39 +08:00
    @am0zing 有没有 增加一点访问
    am0zing
        63
    am0zing  
       2017-05-13 16:33:22 +08:00   1
    @GrahamCloud

    确实增加了!
    xutaoding
        64
    xutaoding  
       2017-05-16 17:09:10 +08:00   1
    GrahamCloud, 看了你们的造数爬虫网站, 在这里请教一个技术问题: 左键点击表示获取与该元素类似的其他节点元素的文本,这个是基于什么算法或思路来实现的呢?
    GrahamCloud
        65
    GrahamCloud  
    OP
       2017-05-17 11:44:15 +08:00
    @xutaoding 欢迎 加微信聊这个 :Zaoshuio
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2697 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 09:40 PVG 17:40 LAX 02:40 JFK 05:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86