这两周,我们做了一个目前来看非常易用的云爬虫:
现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。
![]() | 1 lins 2016-11-26 17:38:37 +08:00 ![]() 能分页爬嘛? |
![]() | 2 GrahamCloud OP @lins 可以啊,修改规则里面。 |
![]() | 3 greatghoul 2016-11-28 14:42:10 +08:00 ![]() 楼主选择页面的标签的那个功能能开源吗?好喜欢。 |
![]() | 4 tokoy 2016-11-28 14:46:11 +08:00 ![]() 蛮酷的 主要用啥语言爬的? |
![]() | 5 GrahamCloud OP @greatghoul 暂时不能,哈哈,还要完善。 |
![]() | 6 wujunze 2016-11-28 17:18:35 +08:00 ![]() 上周已经试用了 |
![]() | 7 exalex 2016-11-28 17:48:44 +08:00 ![]() 感觉好牛逼,特别是交互酷炫 |
![]() | 8 asd103 2016-11-28 18:57:45 +08:00 ![]() “执行出错”,能不能把出错信息贴出来? |
![]() | 9 wshedu 2016-11-28 19:02:28 +08:00 ![]() |
![]() | 10 carlding123 2016-11-28 19:03:32 +08:00 ![]() 每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额... |
![]() | 11 misaka20038numbe 2016-11-28 19:04:46 +08:00 ![]() 测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的. |
![]() | 12 GrahamCloud OP @tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下 |
![]() | 13 GrahamCloud OP @wshedu 欢迎加我的微信, Zaoshuio 我们想了解能不能做到更多个性化的要求。 |
![]() | 14 GrahamCloud OP @carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。 |
![]() | 15 GrahamCloud OP @misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio |
![]() | 16 billyellow 2016-11-28 20:10:48 +08:00 蛮有意思的,支持支持 |
![]() | 17 misaka20038numbe 2016-11-28 22:11:45 +08:00 ![]() @GrahamCloud 原来是用了框架,怪不得.我不怎么用微信. |
![]() | 18 wshedu 2016-11-28 22:48:49 +08:00 ![]() @GrahamCloud 已添加微信。就是我这个帐号 |
![]() | 19 div class="sep3"> GrahamCloud OP @misaka20038numbe 给的意见非常宝贵,感谢。 |
![]() | 20 GrahamCloud OP @wshedu 白天就加,手机拉下了。 |
![]() | 21 cougar 2016-11-29 09:53:16 +08:00 ![]() 说实话,真的很酷 |
![]() | 22 cougar 2016-11-29 09:54:23 +08:00 ![]() 不过我要的数据貌似是没获取到 |
![]() | 23 GrahamCloud OP @cougar 求问是什么数据,能帮到最好。 |
![]() | 24 cougar 2016-11-29 11:42:21 +08:00 ![]() @GrahamCloud 我现在页面提示一直在执行中有一小时了,我的账号是 cougar999 ,在 gmail.com ,你应该能看到吧 |
![]() | 25 GrahamCloud OP @cougar 看到了,在解决。 |
![]() | 26 kenshinhu 2016-11-29 12:10:22 +08:00 ![]() 哦,使用示例这里有拉勾的中山区域连接的? 这个怎样实现的? |
![]() | 27 GrahamCloud OP @kenshinhu 结合定位。 |
![]() | 28 GrahamCloud OP @cougar 方便的话加下微信或者首页客服里聊聊吧,好像还在卡。认真解决一下。 |
![]() | 29 jaylong 2016-11-29 17:27:42 +08:00 ![]() 邮件 token 非法 |
![]() | 30 GrahamCloud OP 感谢! |
31 yu550461029 2016-11-30 11:12:42 +08:00 ![]() 打算爬一下国家统计局的行政区划,感觉不大会用呢 |
![]() | 32 GrahamCloud OP @yu550461029 想爬什么样的,具体说说? |
![]() | 33 GreatMartial 2016-11-30 11:25:29 +08:00 via Android ![]() 支持,有空体验一下 |
34 blackFool 2016-12-01 12:00:53 +08:00 ![]() 界面交互不错,爬爬微信公号 |
35 quericy 2016-12-02 15:14:31 +08:00 ![]() 页面元素只能选取,不能直接交互: http://www.huipinzhe.com/nanzhuang?page=1 遇到有全屏遮罩的还得手动 F12...... 如果有的页面需要一系列操作 JS 拼接的数据,是不是就无法采集? |
![]() | 36 GrahamCloud OP @quericy 因为上新 ui 的缘故,完成创建的步骤今天卡住了,采集方面,应该是能支持的。 |
37 quericy 2016-12-02 15:22:01 +08:00 ![]() |
![]() | 38 GrahamCloud OP @quericy 这个坑确实是有点大,现在还在解决。欢迎加微信: Zaoshuio |
![]() | 39 saber000 2016-12-04 02:25:16 +08:00 ![]() 没有 api 吗 |
![]() | &bsp; 40 GrahamCloud OP @saber000 这是这两周的安排。 |
![]() | 41 GrahamCloud OP @saber000 api 需求欢迎提交给我,微信 Zaoshuio |
![]() | 42 lakewong 2016-12-12 15:06:55 +08:00 ![]() |
![]() | 43 GrahamCloud OP @lakewong 不不,不能爬首页,对于知乎,将来可以通过 api 来搞。 首页的示例里,链家,拉钩这样的,是我们的主要应用场景。 |
![]() | 44 xvx 2016-12-12 15:29:56 +08:00 via iPhone ![]() 域名早熟? |
![]() | 45 GrahamCloud OP @xvx 晚熟,晚熟。 |
46 mingyun 2016-12-12 23:27:15 +08:00 厉害了我的哥,赶紧去看看 |
![]() | 47 baiyi ![]() 下回节点能放在推广吗 |
![]() | 48 9hills 2016-12-14 14:48:53 +08:00 ![]() 试试爬一下多看电子书,自己爬比较麻烦的是代理池、防抓取等还需要自己做 |
![]() | 49 GrahamCloud OP @baiyi 其实倒真不是推广,是诚心来探讨聊天来着。推广肯定会买广告位,现在产品不成熟还是求意见聊场景的阶段。 |
![]() | 50 baiyi 2016-12-14 15:22:22 +08:00 ![]() @GrahamCloud 嗯 加油做一个好产品! |
![]() | 51 9hills 2016-12-14 15:34:36 +08:00 ![]() 失败了,这个失败都没有地方 debug 。。。 就一个执行失败。。。我还是老老实实的用 scrapy 吧<_< |
![]() | 52 hakulamatata 2016-12-14 15:37:29 +08:00 ![]() 指哪爬哪能做到就已经能够很好了 |
![]() | 53 GrahamCloud OP @9hills 我去后台看下啥情况。求告知邮箱 |
![]() | 54 9hills &bsp;2016-12-14 17:26:37 +08:00 ![]() |
![]() | 55 GrahamCloud OP @9hills 为了易用, debug 暂时不能给使用者,现在只能我们尽量帮 debug |
![]() | 56 GrahamCloud OP @hakulamatata 产品上问题还特别特别多 |
![]() | 57 GrahamCloud OP @hakulamatata 看哪不好随时说。 |
58 haigeek 2016-12-16 15:40:30 +08:00 ![]() 没人试试高校的教务管理系统吗? aspx 页面,某果,界面是空白的。 |
![]() | 59 GrahamCloud OP @haigeek 求告知网址! |
60 haigeek 2016-12-16 16:45:13 +08:00 ![]() @GrahamCloud http://kmustjwcxk1.kmust.edu.cn/jwweb/ 这个是登录地址,是需要账户和密码的。 http://kmustjwcxk1.kmust.edu.cn/jwweb/MAINFRM.aspx 这个是登录上去的 但是我怕你还是打不开 但是你看后缀是 aspx 的,在页面直接是没有右键选项的。这个管理系统是青果,似乎国内用的也不少,听说是便宜。可以根据信息参考下。 |
![]() | 61 iammapping 2016-12-16 16:47:12 +08:00 ![]() 能不能设置规则,爬完列表下钻到详细页爬其他信息 |
![]() | 62 GrahamCloud OP @iammapping 正在努力搞这个功能。 |
![]() | 63 GrahamCloud OP @haigeek 太感谢了!求加微信: Zaoshuio |
64 demov2 2016-12-23 09:43:04 +08:00 ![]() 以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~ |
![]() | 65 isb 2016-12-26 12:42:29 +08:00 ![]() 试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。 任务能否有个进度条。。 还有可否增加终止任务?? |
66 Hansah 2016-12-26 12:43:14 +08:00 ![]() 恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。 比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。 |
![]() | 67 RyuZheng 2016-12-26 13:28:33 +08:00 ![]() |
![]() | 68 GrahamCloud OP @isb 这个提议非常好 |
![]() | 69 GrahamCloud OP @siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题 |
![]() | 70 GrahamCloud OP @RyuZheng 这个会作为重点帮你搞定 |
![]() | 71 ivvei 2016-12-28 17:12:07 +08:00 ![]() 多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中…… |
![]() | 72 GrahamCloud OP @ivvei 应该是几秒钟就该分析好了,是什么网站。 |
73 Hansah 2016-12-28 19:19:13 +08:00 ![]() |
![]() | 74 ivvei 2016-12-29 09:58:52 +08:00 ![]() @GrahamCloud htt://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页 |
![]() | 75 ivvei 2016-12-29 10:08:52 +08:00 ![]() @GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题…… |
![]() | 76 GrahamCloud OP @ivvei 昨天有一段时间是出现了网络问题,嗯。 |
![]() | 77 GrahamCloud OP @ivvei 这个网站需要的数据,你看都能按你要求下来不。 |
![]() | 78 ivvei 2016-12-29 16:18:58 +08:00 ![]() @GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。 |
![]() | 79 GrahamCloud OP @ivvei 翻页是支持的,在你的控制台地址设置里面。 |
![]() | 80 isnowify 2017-02-06 12:40:08 +08:00 via Android ![]() 很赞! |
![]() | 81 cxl008 2017-02-06 12:54:23 +08:00 ![]() 坐等开源 |
83 haoxuexiaoyao 2017-02-06 13:28:02 +08:00 ![]() 这个怎么用呢 爬的数据能自己保存到数据库么 |
84 haoxuexiaoyao 2017-02-06 13:30:04 +08:00 ![]() 一直提示链接超时 |
85 firldlove 2017-02-06 14:11:48 +08:00 ![]() |
![]() | 86 ELLIA 2017-02-06 14:13:31 +08:00 ![]() 一直出错啊~ |
![]() | 87 GrahamCloud OP |
![]() | 88 GrahamCloud OP @haoxuexiaoyao 爬的数据可以保存到数据库 |
![]() | 89 GrahamCloud OP @isnowify 谢谢支持! |
![]() | 90 GrahamCloud OP @cxl008 一直在上新功能,估计可预见的时间不会开源 |
![]() | 91 isnowify 2017-02-06 14:42:51 +08:00 via Android ![]() @GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果 |
92 lwd2136 2017-02-06 15:14:18 +08:00 ![]() @GrahamCloud http://www.whwater.com/gsfw/tstz/ 爬不动?执行出错 |
![]() | 93 ELLIA 2017-02-06 15:15:34 +08:00 ![]() 嗯,现在好像能用了…… |
![]() | 94 ybh37 2017-02-06 15:25:48 +08:00 ![]() 试了一下 百度新闻,失败 4 次 难道我姿势不对? |
95 sphawkcn 2017-02-06 15:4230 +08:00 ![]() @GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。 |
![]() | 97 GrahamCloud OP @isnowify 这个功能马上就会上 |
![]() | 98 GrahamCloud OP |
![]() | 99 GrahamCloud OP @sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio |
![]() | 100 ELLIA 2017-02-07 13:22:04 +08:00 ![]() 今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。 其次是目前只支持定时一天爬一次是吗?还是未来也这样。 最后就是我设了邮箱,但是没有收到邮件…… |