
四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。
想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作
1 wyntergreg 2016-12-06 14:13:12 +08:00 把标换了吧,弄个纵泰的标好么... 另外,爬虫为什么要做云... |
2 GrahamCloud OP 想做个好用的通用爬虫嘛,顺便解决数据量大硬盘不够的问题,哈哈 |
3 jccg90 2016-12-06 16:15:40 +08:00 之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便,只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据,结果发现竟然只保存了最近几次的结果,爬了一周的数据竟然没有保存,每天的邮件推送里面也没把数据推送过来,只是给个链接让自己过去取数据。。。虽然是免费服务吧,但是感觉数据应该按量计费而不是按次计费 |
4 akira 2016-12-06 16:25:35 +08:00 已抓取数据免费保存 1 周,付费用户保存 30 天。。。 唔。。这样的计费模式如何 |
5 Mizzi 2016-12-06 17:06:38 +08:00 爬取直接转 rss/atom |
6 GreatMartial 2016-12-06 21:04:41 +08:00 额,好奇你们这“使用范例”,是怎么根据用户的浏览器历史自动生成的吗? |
7 alexapollo 2016-12-06 22:29:12 +08:00 感觉这行越来越泛滥了。。技术倒都是前几年的 |
8 firefox12 2016-12-07 08:34:40 +08:00 via iPhone 你能把淘宝的各种商品爬下来吗? |
9 bzzhou 2016-12-07 09:26:20 +08:00 做这块的太多了,做好了,分一杯羹是可以的;但是市场规模估计玄乎。 |
10 jyf 2016-12-07 10:20:53 +08:00 @wyntergreg 做好是可以 cache 住目站的力 跟某些大博主提倡大家用 rss 一道理 不我得服目前做得是很一般 |
11 GrahamCloud OP @jccg90 这个稍微有点苦衷,之前邮件出了点问题,现在这样是过渡一下。 按理说一周的数据是保存了的,我在后台再看一下。 |
12 GrahamCloud OP @akira 还是只能按量收费,时间不是主要问题。 |
13 GrahamCloud OP @GreatMartial 对,不一样地点不一样。 |
14 GrahamCloud OP @alexapollo 第四周忙东忙西的,技术上好多还没上。 |
15 GrahamCloud OP @jyf 关键就是应用场景,我觉得应用场景还需要思考。 |
16 jyf 2016-12-07 12:10:05 +08:00 @GrahamCloud 应用场景思考这个不能闭门造车 最好的办法就是产品好用 前期免费给大家随便用 从用户的行为中去分析大众需求 |
17 GrahamCloud OP @jyf 说得对,现在定制个人服务免费,网站功能是全免费的目前。 |
18 GrahamCloud OP @jyf 啊,说错了,定制个人服务收费,网站功能全免费。 |
19 GrahamCloud OP @jccg90 感觉怪不好意思的,求加微信 Zaoshuio |
20 jccg90 2016-12-07 13:41:36 +08:00 @GrahamCloud 哈。。。没事,当时就是随手测试一下,也不是真的需要抓数据。。。感觉这种服务还是挺方便的,如果我要用的话,一般就是用这种服务做简单的页面监控用,比如就监控某个页面的某几个数据,每天定时抓下来,并保存下来。 再高级点的功能就是,把每次抓到的数据聚合一下,出个表格之类的。但是只能保存最近 10 次的结果,这个就不太友好了,可以把限制改一下,比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据,每次就存几个数,多存一些也不会额外占用资源吧 我用这种服务的话,一般都在抓很简单的,数据量很小东西的时候。。。复杂的需求或者规模大的需求,一般也不会用这种服务了 |
21 GrahamCloud OP @jccg90 其实是没有删掉还在服务器上,之前出了个问题,就是定时任务邮件无法取消的 bug ,所以先这样过渡,实在不好意思。 |
23 GrahamCloud OP @lslqtz 谢谢支持,哈哈,欢迎探讨 |
25 KgM4gLtF0shViDH3 2016-12-08 17:00:49 +08:00 via Android 即刻? |
26 GrahamCloud OP @bestkayle 不是,就随便讨论 |
27 warjiang 2016-12-08 17:22:57 +08:00 这东西开源么?对爬虫也比较感兴趣 |
28 em70 2016-12-09 11:40:22 +08:00 建议商业模式: 工具和储存都免费开放给大家,让人用你们的工具去抓取有价值数据,然后提供一个市场来交易数据,你们从中抽成 |
29 stcasshern 2016-12-09 11:42:26 +08:00 试用了一下,首先觉得邮件注册的确很友好,但是可能不能限制用户使用...同样比较赞同按使用量计费 |
30 KenGe 2016-12-09 11:54:06 +08:00 这个字体 我能吐槽吗? |
31 GrahamCloud OP @warjiang 目前不开源 |
32 GrahamCloud OP @em70 想法好棒! |
33 GrahamCloud OP @KenGe 谢谢您的时间和耐心,谢谢。 |
34 changwei 2016-12-12 23:24:13 +08:00 使用了一下,前端做的还是很不错的,不过之前在 v2 也看到很多人在做了,持续观望 ing |
35 SlipStupig 2016-12-13 02:22:21 +08:00 功能还是太弱了,还不能接入 sdk ,抓取速度真的好一般,如果是给一些互联网公司运营和编辑用还可以,如果想给开发者用的话,还是先开源吧 |
36 SlipStupig 2016-12-13 02:26:57 +08:00 @em70 数据堂就在做这些事情,卖数据、抽取规则还有数据 API 接口 |
37 wangxiaoer 2016-12-13 10:56:52 +08:00 春风得意,自我感觉良好,真是呵呵哒。 试用了一下,就感觉是个玩具。 不说其他,就说神箭手云爬虫,你们跟别人差的也不是一点半点 |
38 GrahamCloud OP @SlipStupig 给不会编程的做一点简单的应用可以, api 定制是将来的方向。 |
39 GrahamCloud OP @wangxiaoer 刚开始一个多月,肯定有差距啦。 |
40 GrahamCloud OP @wangxiaoer 有建议直接提,这本来也是个讨论帖,也欢迎提 bug 。 |
41 phantom1124 2016-12-13 12:14:23 +08:00 只能爬取当前页吗?如果我想爬取所有分页的数据怎么做? |
42 xycool 2016-12-13 12:49:58 +08:00 分页的数据没办法爬,我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫,求推荐。 |
43 iannil 2016-12-13 13:37:53 +08:00 |
44 hanbing135 2016-12-13 13:45:53 +08:00 能不能特定的检测某个数据变化呢 比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化 设定了这个网页抓取不到数据啊 |
45 iannil 2016-12-13 13:46:55 +08:00 |
46 GrahamCloud OP @phantom1124 爬取分页在你的工作台里设置规则可以做。 |
47 GrahamCloud OP @hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。 |
48 GrahamCloud OP @xycool 分页现在其实是完全可以爬的,在你的控制台的设置规则里。 |
49 GrahamCloud OP @iannil 很强大,感谢。 |
50 imn1 2016-12-13 14:59:27 +08:00 爬虫这个问题,和 ad block 工具某些方面有点类似,其目的都是帮助用户舍弃“无效信息”,直接获取“有效信息” 但争议性非常大,建议还是低调,盈利以服务性质为主,而不能以内容作为衡量 做得好,还可美其名为“聚合”,做不好、做大了还是难免成为被告的 |
51 GrahamCloud OP @imn1 是啊,说得有道理。 |
52 graetdk 2016-12-13 15:29:34 +08:00 为啥页数只能是 1-100 ? |
53 GrahamCloud OP @graetdk url 总量不能太大,目前 |
54 xycool 2016-12-13 16:01:50 +08:00 @GrahamCloud 不能用正则匹配吧?是不是需要复制所有的分页 rl 。 |
55 xycool 2016-12-13 16:04:40 +08:00 @GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来,我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。 |
56 GrahamCloud OP @xycool 分页现在除了总量有限制,要改进的看来还有很多。 |
57 tikazyq 2016-12-26 21:01:20 +08:00 神箭手 |
58 hcymk2 2016-12-29 14:06:50 +08:00 支持需要登录后才能爬取的页面么? |
59 GrahamCloud OP @hcymk2 现在还不支持。 |
60 GrahamCloud OP |
61 orzcc 2017-01-04 23:47:19 +08:00 基础服务肯定要稳定: ip 库(可分价格档)、自动打码、允许小号模拟登录、 api 导出、 api 种子导入。 |
62 GrahamCloud OP 前三个月功能迭代上心血很多,稳定性上确实……只能说逐步改进,这周马上又要出一个更好的新版了。 如果还愿意赏脸。吼吼 |
63 GrahamCloud OP @orzcc 求加微信 Zaoshuio |
64 GrahamCloud OP @orzcc 求给您发红包 |
65 zjw60320 2017-01-05 16:57:02 +08:00 404 啦 |
66 GrahamCloud OP @zjw60320 现在还 404 么 |
67 zjw60320 2017-01-06 13:36:42 +08:00 @GrahamCloud 我这还是 404 哎。。 |
68 hoocok 2017-01-10 13:15:50 +08:00 今天还是 404 |
69 GrahamCloud OP @hoocok 求问哪个,我这边测了好多个都正常运行 |
70 alexnone 2017-01-10 16:16:27 +08:00 @GrahamCloud 低级错误 超链接变成了 t/www.zaoshu.io ... |