如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。
热切期待新需求,和反馈问题的造数团队: [email protected] www.zaoshu.io
![]() | 1 GrahamCloud OP 会推出一些 side project 方便需求,如果想试用也可以联系我。 |
2 crayonyi 2016-11-09 18:21:44 +08:00 ![]() 对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/) |
![]() | 3 GrahamCloud OP @crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。 |
![]() | 4 wjm2038 2016-11-09 21:56:39 +08:00 via Android ![]() 不错 |
![]() | 5 GrahamCloud OP @wjm2038 有什么问题,或者有什么想法一定要告诉我。 |
6 mingyun 2016-11-09 23:34:26 +08:00 ![]() 赞一个 |
7 sssdjiui 2016-11-10 01:35:20 +08:00 ![]() |
![]() | 9 strwei 2016-11-10 01:51:13 +08:00 不错哦 |
![]() | 10 binux 2016-11-10 01:57:52 +08:00 ![]() 上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。 给个例子: http://www.ikea.com/gb/en/search/?k=chair |
![]() | 11 lhx2008 2016-11-10 08:38:36 +08:00 via Android ![]() 安卓手机下有严重的错位。。 |
![]() | 12 GrahamCloud OP @lhx2008 现在刚开始做,手机适配还不行。 |
![]() | 13 GrahamCloud OP @binux 这个问题下周会上一个新版解决。 谢谢上次提出来。这两周 bug 比较多。 |
14 crayonyi 2016-11-10 11:31:02 +08:00 ![]() @GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler |
![]() | 15 Magic347 2016-11-10 13:40:43 +08:00 ![]() 和 import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进: 例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据, 造数目前是没法采集到的,但是 import.io 是可以准确采集到的。 |
![]() | 16 GrahamCloud OP @Magic347 说得对,现在对这类支持的还是不够。 |
17 chendajun 2016-11-10 14:33:53 +08:00 ![]() |
![]() | 18 GrahamCloud OP @chendajun 目前只有勾选,没有提取正文。 |
![]() | 19 GrahamCloud OP @chendajun 目前只有自动勾选,没有提取正文。 |
20 crayonyi 2016-11-10 23:11:02 +08:00 ![]() @GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来 |
![]() | 21 GrahamCloud OP @crayonyi 今天刚挂了,有的功能要以后上。 |
22 scnace 2016-11-11 00:20:08 +08:00 via Android ![]() 访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛) |
![]() | 23 lslqtz 2016-11-11 01:16:29 +08:00 ![]() 我希望提供 json 的数据接口,而不要 excel 。 |
![]() | 24 GrahamCloud OP |
![]() | 25 GrahamCloud OP 现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。 啧啧,谢谢大家。 |
![]() | 26 GrahamCloud OP @crayonyi 现在翻页是可以的 |
![]() | 27 wyntergreg 2016-11-11 09:10:52 +08:00 ![]() 别的不说 你发在这里 几天以后你会发现爬了一堆奇怪的东东 |
28 cmisaka 2016-11-11 09:50:00 +08:00 ![]() 在爬淘宝的一个商品页面一直在转... |
![]() | 29 panfake 2016-11-11 10:39:22 +08:00 ![]() 一直 loading ,所以采集一个页面需要这么慢? |
![]() | 30 GrahamCloud OP |
![]() | 31 GrahamCloud OP @wyntergreg 现在爬的数据,确实很奇怪。 |
![]() | 32 billyellow 2016-11-11 11:44:42 +08:00 赞~~~~ |
![]() | 33 popoer 2016-11-11 15:05:57 +08:00 ![]() 多爬几次会出验证码的网站怎么办呢? |
![]() | 34 GrahamCloud OP 目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。 |
![]() | 35 frankmdong 2016-11-12 10:29:58 +08:00 ![]() 爬取到的页面能生成 RSS 地址吗 |
![]() | 36 asd103 2016-11-12 11:50:57 +08:00 ![]() 出现 500 状态码 |
![]() | 37 byuc 2016-11-12 14:44:14 +08:00 ![]() 创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。 |
![]() | 38 GrahamCloud OP @byuc 爬取的页面是? |
![]() | 39 GrahamCloud OP @tumbzzc 哪个阶段出现的 500 状态? |
![]() | 40 asd103 2016-11-12 20:43:28 +08:00 ![]() @GrahamCloud 输入网址之后点“点击试试” |
![]() | 41 byuc 2016-11-13 09:13:13 +08:00 ![]() @GrahamCloud 无论是什么页面,在创建完任务进行执行的时候都是提示执行出错,而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ,也失效。 |
![]() | 42 xssing 2016-11-13 15:09:05 +08:00 ![]() 一直在分析页面中 |
![]() | 43 mythhack 2016-11-13 15:38:57 +08:00 一直在分析页面中 |
![]() | 44 kukuwhu 2016-11-13 16:11:39 +08:00 ![]() 呵呵,上次进去随便输入一个 url 无限等待中,这次又进去输入一个简单的 url ,又是无限循环等待。。。 这都能放出来? |
![]() | 45 GrahamCloud OP |
![]() | 46 asd103 2016-11-14 11:20:06 +08:00 ![]() 首页的那个“点击试试”还是 500 。 注册后提交网址一直是“造数正在为你分析页面” |
![]() | 47 GrahamCloud OP @tumbzzc 因为硬盘满了,已经修复。 |
![]() | 48 GrahamCloud OP 准备上新的 Ui 界,欢迎批评和试用。 |
![]() | 49 eminemcola 2016-11-15 00:19:54 +08:00 ![]() 猴 |
![]() | 50 yh7gdiaYW 2016-11-16 11:53:55 +08:00 ![]() 字体闪瞎我了,首页也就算了,控制台能不能别用 Heiti SC Medium ? |
![]() | 51 GrahamCloud OP @yh7gdiaYW 现在弄得确实不太好,首页在测试,估计明天马上要上新的了。字体也会更新,求意见求批评。 |
![]() | 52 zijikai 2016-11-16 12:12:17 +08:00 via iPhone ![]() 手机上首页不匹配,不是自响应? |
![]() | 53 GrahamCloud OP @zijikai 确实啊,现在只对网页端 URL 功能做了很多尝试。 手机端我们会在周五上一版 UI 。 |
![]() | 54 wujunze 2016-11-16 13:37:51 +08:00 ![]() 最近类似的云爬虫平台很多 我记得还有一个什么 神箭手来着 |
![]() | 55 GrahamCloud OP @wujunze 好用不 |
![]() | 56 est 2016-11-16 14:11:04 +08:00 ![]() 还停留在 “分析页面” 这里。 |
![]() | 57 GrahamCloud OP @est 我这里显示没问题,不知道我们是不是对浏览器适配没做好,求发浏览器和系统概况。 |
![]() | 58 est 2016-11-16 14:31:03 +08:00 ![]() @GrahamCloud 又好了。你们可以上一个 mixpanel 了。 |
![]() | 59 GrahamCloud OP @est 现在在完善分析用户行为的后台。 trace 的方法还不够好 |
![]() | 60 alfer 2016-11-16 15:17:50 +08:00 ![]() 抓了个淘宝页面玩玩,一直分析中。。。 |
![]() | 61 GrahamCloud OP @alfer 准备周末推新 ui 在各种 测试,实在不好意思。 |
![]() | 62 reticentfat 2016-11-17 09:46:30 +08:00 ![]() 输入了一个贴吧地址怎么输出页面和输入差不多 |
![]() | 63 GrahamCloud OP @reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。 |
64 honkew 2016-11-17 13:18:39 +08:00 ![]() |
![]() | 65 GrahamCloud OP @honkew 目前这样的还不支持,在需求队列中。 |
![]() | 66 zluyuer 2016-11-17 18:51:08 +08:00 ![]() 似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404 |
![]() | 67 GrahamCloud OP @zluyuer 可以期待一下我们这几天马上要出的新版。 |
![]() | 68 incrediblink 2016-11-19 22:27:04 +08:00 ![]() 为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。 |
![]() | 69 jmp2x 2016-11-20 01:38:07 +08:00 ![]() 注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→ |
![]() | 70 csx163 2016-11-20 23:27:47 +08:00 ![]() 注册时出现邮件 TOKEN 非法 |
![]() | 71 GrahamCloud OP @csx163 求告知细节。 |
![]() | 72 GrahamCloud OP @incrediblink 正文我测试了两次还可以运行,求告知具体配置。 争取周一解决。 |
![]() | 73 csx163 2016-11-21 11:02:16 +08:00 via Android ![]() @GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。 |
![]() | 74 GrahamCloud OP @csx163 现在注册还有问题是么 |
![]() | 75 GrahamCloud OP @jmp2x 感谢小伙伴,强烈感谢。 |
![]() | 76 GrahamCloud OP |
![]() | 77 brucedone 2016-11-21 17:18:47 +08:00 ![]() 我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。 |
![]() | 78 GrahamCloud OP @brucedone 目前可能确实有个开发者模式能更好的服务客户。 |
![]() | 79 anexplore 2016-11-22 12:37:52 +08:00 ![]() |
80 crayonyi 2016-11-22 14:30:58 +08:00 ![]() 新 UI 不错 |
![]() | 81 GrahamCloud OP @crayonyi 马上还有更多新功能 |
![]() | 82 cc55555 2016-12-23 14:36:18 +08:00 ![]() 希望可以添加将图片或文章自动发送到邮箱, Post 到 G+、 Twitter 、 Tumblr 等。 |
![]() | 83 GrahamCloud OP @cc55555 这三个估计短期内还上不了,图片在考虑 |
![]() | 84 cc55555 2017-01-22 08:22:00 +08:00 ![]() |
![]() | 85 cc55555 2017-01-22 13:23:29 +08:00 ![]() http://www.infosec-wiki.com/?p=308 看到了这篇文章,或许对于你有用处 |
![]() | 86 GrahamCloud OP @cc55555 可以转发到邮箱, rss 和 dropbox 还暂时在排期开靠后的部分,求加团队微信: Zaoshuio |
![]() | 87 Limius 2017-03-07 17:40:22 +08:00 ![]() @GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢,发现翻页的话网址也没有变化。 |
![]() | 88 GrahamCloud OP @Limius 好问题 |
![]() | 89 figofuture 2017-03-13 09:54:22 +08:00 收藏了 |
![]() | 90 4BVL25L90W260T9U 2017-03-18 15:31:54 +08:00 ![]() 感觉和 import.io 还有些差距,加油 |
![]() | 91 GrahamCloud OP @ospider 感谢! |
![]() | 92 ZernonHuang 2017-03-28 22:01:38 +08:00 ![]() 您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下. |
![]() | 93 GrahamCloud OP @ZernonHuang 您是手机看了下吧, web 端免费试用,我们的反爬比较专业,使用后可以多提意见和需求。 |
![]() | 94 yangxin0 2017-04-06 12:36:50 +08:00 噗。。。明明一个简单页面提取工具,这不叫爬虫啊 |