关于云爬虫用户场景和需求的讨论帖 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
GrahamCloud
V2EX    程序员

关于云爬虫用户场景和需求的讨论帖

  •  
  •   GrahamCloud 2016-12-06 13:00:41 +08:00 11113 次点击
    这是一个创建于 3244 天前的主题,其中的信息可能已经有所发展或是发生改变。

    四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。

    想做到最好的造数,主页在这里 zaoshu.io

    想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作

    第 1 条附言    2016-12-07 11:32:39 +08:00
    希望大家能一起探讨爬虫的应用场景和商业模式,欢迎加微信 Zaoshuio 。
    第 2 条附言    2016-12-12 11:28:16 +08:00
    这周又上了全新的 ui ,撒花,耶!
    第 3 条附言    2017-01-10 17:04:24 +08:00
    链接失效了,地址在这里:
    www.zaoshu.io
    70 条回复    2017-01-10 16:16:27 +08:00
    wyntergreg
        1
    wyntergreg  
       2016-12-06 14:13:12 +08:00   1
    把标换了吧,弄个纵泰的标好么...

    另外,爬虫为什么要做云...
    GrahamCloud
        2
    GrahamCloud  
    OP
       2016-12-06 14:22:54 +08:00
    想做个好用的通用爬虫嘛,顺便解决数据量大硬盘不够的问题,哈哈
    jccg90
        3
    jccg90  
       2016-12-06 16:15:40 +08:00   1
    之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便,只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据,结果发现竟然只保存了最近几次的结果,爬了一周的数据竟然没有保存,每天的邮件推送里面也没把数据推送过来,只是给个链接让自己过去取数据。。。虽然是免费服务吧,但是感觉数据应该按量计费而不是按次计费
    akira
        4
    akira  
       2016-12-06 16:25:35 +08:00   1
    已抓取数据免费保存 1 周,付费用户保存 30 天。。。

    唔。。这样的计费模式如何
    Mizzi
        5
    Mizzi  
       2016-12-06 17:06:38 +08:00   1
    爬取直接转 rss/atom
    GreatMartial
        6
    GreatMartial  
       2016-12-06 21:04:41 +08:00   1
    额,好奇你们这“使用范例”,是怎么根据用户的浏览器历史自动生成的吗?
    alexapollo
        7
    alexapollo  
       2016-12-06 22:29:12 +08:00   1
    感觉这行越来越泛滥了。。技术倒都是前几年的
    firefox12
        8
    firefox12  
       2016-12-07 08:34:40 +08:00 via iPhone   1
    你能把淘宝的各种商品爬下来吗?
    bzzhou
        9
    bzzhou  
       2016-12-07 09:26:20 +08:00   1
    做这块的太多了,做好了,分一杯羹是可以的;但是市场规模估计玄乎。
    jyf
        10
    jyf  
       2016-12-07 10:20:53 +08:00   1
    @wyntergreg 做好是可以 cache 住目站的力 跟某些大博主提倡大家用 rss 一道理 不我得服目前做得是很一般
    GrahamCloud
        11
    GrahamCloud  
    OP
       2016-12-07 11:28:56 +08:00
    @jccg90 这个稍微有点苦衷,之前邮件出了点问题,现在这样是过渡一下。
    按理说一周的数据是保存了的,我在后台再看一下。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2016-12-07 11:29:23 +08:00
    @akira 还是只能按量收费,时间不是主要问题。
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-12-07 11:30:12 +08:00
    @GreatMartial 对,不一样地点不一样。
    GrahamCloud
        14
    GrahamCloud  
    OP
       2016-12-07 11:30:39 +08:00
    @alexapollo 第四周忙东忙西的,技术上好多还没上。
    GrahamCloud
        15
    GrahamCloud  
    OP
       2016-12-07 11:31:02 +08:00
    @jyf 关键就是应用场景,我觉得应用场景还需要思考。
    jyf
        16
    jyf  
       2016-12-07 12:10:05 +08:00   1
    @GrahamCloud 应用场景思考这个不能闭门造车 最好的办法就是产品好用 前期免费给大家随便用 从用户的行为中去分析大众需求
    GrahamCloud
        17
    GrahamCloud  
    OP
       2016-12-07 12:11:28 +08:00
    @jyf 说得对,现在定制个人服务免费,网站功能是全免费的目前。
    GrahamCloud
        18
    GrahamCloud  
    OP
       2016-12-07 12:12:15 +08:00
    @jyf 啊,说错了,定制个人服务收费,网站功能全免费。
    GrahamCloud
        19
    GrahamCloud  
    OP
       2016-12-07 12:13:07 +08:00
    @jccg90 感觉怪不好意思的,求加微信 Zaoshuio
        20
    jccg90  
       2016-12-07 13:41:36 +08:00   1
    @GrahamCloud 哈。。。没事,当时就是随手测试一下,也不是真的需要抓数据。。。感觉这种服务还是挺方便的,如果我要用的话,一般就是用这种服务做简单的页面监控用,比如就监控某个页面的某几个数据,每天定时抓下来,并保存下来。 再高级点的功能就是,把每次抓到的数据聚合一下,出个表格之类的。但是只能保存最近 10 次的结果,这个就不太友好了,可以把限制改一下,比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据,每次就存几个数,多存一些也不会额外占用资源吧


    我用这种服务的话,一般都在抓很简单的,数据量很小东西的时候。。。复杂的需求或者规模大的需求,一般也不会用这种服务了
    GrahamCloud
        21
    GrahamCloud  
    OP
       2016-12-07 14:06:21 +08:00
    @jccg90 其实是没有删掉还在服务器上,之前出了个问题,就是定时任务邮件无法取消的 bug ,所以先这样过渡,实在不好意思。
    lslqtz
        22
    lslqtz  
       2016-12-08 00:56:35 +08:00   1
    @firefox12 我用着还行。。
    GrahamCloud
        23
    GrahamCloud  
    OP
       2016-12-08 11:11:07 +08:00
    @lslqtz 谢谢支持,哈哈,欢迎探讨
    JoyNeop
        24
    JoyNeop  
       2016-12-08 11:49:45 +08:00
    KgM4gLtF0shViDH3
        25
    KgM4gLtF0shViDH3  
       2016-12-08 17:00:49 +08:00 via Android   1
    即刻?
    GrahamCloud
        26
    GrahamCloud  
    OP
       2016-12-08 17:06:32 +08:00
    @bestkayle 不是,就随便讨论
    warjiang
        27
    warjiang  
       2016-12-08 17:22:57 +08:00   1
    这东西开源么?对爬虫也比较感兴趣
    em70
        28
    em70  
       2016-12-09 11:40:22 +08:00   1
    建议商业模式:

    工具和储存都免费开放给大家,让人用你们的工具去抓取有价值数据,然后提供一个市场来交易数据,你们从中抽成
    stcasshern
        29
    stcasshern  
       2016-12-09 11:42:26 +08:00   1
    试用了一下,首先觉得邮件注册的确很友好,但是可能不能限制用户使用...同样比较赞同按使用量计费
    KenGe
        30
    KenGe  
       2016-12-09 11:54:06 +08:00   1
    这个字体 我能吐槽吗?
    GrahamCloud
        31
    GrahamCloud  
    OP
       2016-12-09 17:19:55 +08:00
    @warjiang 目前不开源
    GrahamCloud
        32
    GrahamCloud  
    OP
       2016-12-09 17:20:13 +08:00
    @em70 想法好棒!
    GrahamCloud
        33
    GrahamCloud  
    OP
       2016-12-09 17:20:53 +08:00
    @KenGe 谢谢您的时间和耐心,谢谢。
    changwei
        34
    changwei  
       2016-12-12 23:24:13 +08:00   1
    使用了一下,前端做的还是很不错的,不过之前在 v2 也看到很多人在做了,持续观望 ing
    SlipStupig
        35
    SlipStupig  
       2016-12-13 02:22:21 +08:00   1
    功能还是太弱了,还不能接入 sdk ,抓取速度真的好一般,如果是给一些互联网公司运营和编辑用还可以,如果想给开发者用的话,还是先开源吧
    SlipStupig
        36
    SlipStupig  
       2016-12-13 02:26:57 +08:00
    @em70 数据堂就在做这些事情,卖数据、抽取规则还有数据 API 接口
    wangxiaoer
        37
    wangxiaoer  
       2016-12-13 10:56:52 +08:00   1
    春风得意,自我感觉良好,真是呵呵哒。
    试用了一下,就感觉是个玩具。
    不说其他,就说神箭手云爬虫,你们跟别人差的也不是一点半点
    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-12-13 11:22:21 +08:00
    @SlipStupig 给不会编程的做一点简单的应用可以, api 定制是将来的方向。
    GrahamCloud
        39
    GrahamCloud  
    OP
       2016-12-13 11:22:46 +08:00
    @wangxiaoer 刚开始一个多月,肯定有差距啦。
    GrahamCloud
        40
    GrahamCloud  
    OP
       2016-12-13 11:46:22 +08:00
    @wangxiaoer 有建议直接提,这本来也是个讨论帖,也欢迎提 bug 。
    phantom1124
        41
    phantom1124  
       2016-12-13 12:14:23 +08:00   1
    只能爬取当前页吗?如果我想爬取所有分页的数据怎么做?
    xycool
        42
    xycool  
       2016-12-13 12:49:58 +08:00   1
    分页的数据没办法爬,我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫,求推荐。
    iannil
        43
    iannil  
       2016-12-13 13:37:53 +08:00   1
    hanbing135
        44
    hanbing135  
       2016-12-13 13:45:53 +08:00   1
    能不能特定的检测某个数据变化呢 比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化 设定了这个网页抓取不到数据啊
    iannil
        45
    iannil  
       2016-12-13 13:46:55 +08:00   1
    桌面版的开源程序: https://github.com/ferventdesert/Hawk

    和造数功能接近,很好用,可以参考。
    GrahamCloud
        46
    GrahamCloud  
    OP
       2016-12-13 14:28:31 +08:00
    @phantom1124 爬取分页在你的工作台里设置规则可以做。
    GrahamCloud
        47
    GrahamCloud  
    OP
       2016-12-13 14:29:07 +08:00
    @hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2016-12-13 14:29:41 +08:00
    @xycool 分页现在其实是完全可以爬的,在你的控制台的设置规则里。
    GrahamCloud
        49
    GrahamCloud  
    OP
       2016-12-13 14:41:20 +08:00
    @iannil 很强大,感谢。
    imn1
        50
    imn1  
       2016-12-13 14:59:27 +08:00   1
    爬虫这个问题,和 ad block 工具某些方面有点类似,其目的都是帮助用户舍弃“无效信息”,直接获取“有效信息”
    但争议性非常大,建议还是低调,盈利以服务性质为主,而不能以内容作为衡量
    做得好,还可美其名为“聚合”,做不好、做大了还是难免成为被告的
    GrahamCloud
        51
    GrahamCloud  
    OP
       2016-12-13 15:09:44 +08:00
    @imn1 是啊,说得有道理。
    graetdk
        52
    graetdk  
       2016-12-13 15:29:34 +08:00   1
    为啥页数只能是 1-100 ?
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-12-13 15:33:52 +08:00
    @graetdk url 总量不能太大,目前
    xycool
        54
    xycool  
       2016-12-13 16:01:50 +08:00
    @GrahamCloud 不能用正则匹配吧?是不是需要复制所有的分页 rl 。
    xycool
        55
    xycool  
       2016-12-13 16:04:40 +08:00   1
    @GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来,我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。
    GrahamCloud
        56
    GrahamCloud  
    OP
       2016-12-14 11:18:22 +08:00
    @xycool 分页现在除了总量有限制,要改进的看来还有很多。
    tikazyq
        57
    tikazyq  
       2016-12-26 21:01:20 +08:00   1
    神箭手
    hcymk2
        58
    hcymk2  
       2016-12-29 14:06:50 +08:00   1
    支持需要登录后才能爬取的页面么?
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-12-29 14:09:01 +08:00
    @hcymk2 现在还不支持。
    GrahamCloud
        60
    GrahamCloud  
    OP
       2017-01-04 11:23:39 +08:00
    @hcymk2
    @xycool
    @graetdk 新的界面要出来了,谢谢大家的意见。
    orzcc
        61
    orzcc  
       2017-01-04 23:47:19 +08:00   1
    基础服务肯定要稳定: ip 库(可分价格档)、自动打码、允许小号模拟登录、 api 导出、 api 种子导入。

    GrahamCloud
        62
    GrahamCloud  
    OP
       2017-01-05 11:49:45 +08:00
    前三个月功能迭代上心血很多,稳定性上确实……只能说逐步改进,这周马上又要出一个更好的新版了。
    如果还愿意赏脸。吼吼
    GrahamCloud
        63
    GrahamCloud  
    OP
       2017-01-05 11:50:53 +08:00
    @orzcc 求加微信 Zaoshuio
    GrahamCloud
        64
    GrahamCloud  
    OP
       2017-01-05 11:51:20 +08:00
    @orzcc 求给您发红包
    zjw60320
        65
    zjw60320  
       2017-01-05 16:57:02 +08:00   1
    404 啦
    GrahamCloud
        66
    GrahamCloud  
    OP
       2017-01-05 20:31:39 +08:00
    @zjw60320 现在还 404 么
    zjw60320
        67
    zjw60320  
       2017-01-06 13:36:42 +08:00
    @GrahamCloud 我这还是 404 哎。。
    hoocok
        68
    hoocok  
       2017-01-10 13:15:50 +08:00   1
    今天还是 404
    GrahamCloud
        69
    GrahamCloud  
    OP
       2017-01-10 15:15:02 +08:00
    @hoocok 求问哪个,我这边测了好多个都正常运行
    alexnone
        70
    alexnone  
       2017-01-10 16:16:27 +08:00   1
    @GrahamCloud 低级错误 超链接变成了 t/www.zaoshu.io ...
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5177 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 07:20 PVG 15:20 LAX 00:20 JFK 03:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86