这里是造数，正在写一个智能云爬虫给大家，快来玩耍

造数

云爬虫

热切

94 条回复 2017-04-06 12:36:50 +08:00

1

GrahamCloud

OP

2016-11-09 17:11:33 +08:00

会推出一些 side project 方便需求，如果想试用也可以联系我。

2

crayonyi

2016-11-09 18:21:44 +08:00

2

对标的是这个网站吗？ [https://www.import.io/]( https://www.import.io/)

3

GrahamCloud

OP

2016-11-09 18:32:52 +08:00

@crayonyi 目标不一样，我们期待第一阶段做他们的功能，接下来做一些有意思的扩展。

4

wjm2038

2016-11-09 21:56:39 +08:00 via Android

1

不错

5

GrahamCloud

OP

2016-11-09 22:20:17 +08:00

@wjm2038 有什么问题，或者有什么想法一定要告诉我。

6

mingyun

2016-11-09 23:34:26 +08:00

1

赞一个

7

sssdjiui

2016-11-10 01:35:20 +08:00

2

https://www.kimonolabs.com/

8

lyonbot

2016-11-10 01:49:31 +08:00

试玩了一下，目前感觉和 import.io 挺像的，感觉还凑合吧，希望后续能看到有趣的功能

9

strwei

2016-11-10 01:51:13 +08:00

不错哦

10

binux

2016-11-10 01:57:52 +08:00

1

上次就说过的，数据行都没有对其，图片价格张冠李戴，这怎么用啊。
给个例子： http://www.ikea.com/gb/en/search/?k=chair

11

lhx2008

2016-11-10 08:38:36 +08:00 via Android

1

安卓手机下有严重的错位。。

12

GrahamCloud

OP

2016-11-10 11:05:59 +08:00

@lhx2008 现在刚开始做，手机适配还不行。

13

GrahamCloud

OP

2016-11-10 11:07:05 +08:00

@binux 这个问题下周会上一个新版解决。
谢谢上次提出来。这两周 bug 比较多。

14

crayonyi

2016-11-10 11:31:02 +08:00

1

@GrahamCloud 如果升级下，感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个，目前只完成通用爬虫部分： https://github.com/yijingping/unicrawler

15

Magic347

2016-11-10 13:40:43 +08:00

1

和 import.io 简单对比了一下，在页面异步加载数据的采集效果上还有待改进：
例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据，
造数目前是没法采集到的，但是 import.io 是可以准确采集到的。

16

GrahamCloud

OP

2016-11-10 14:19:54 +08:00

@Magic347 说得对，现在对这类支持的还是不够。

17

chendajun

2016-11-10 14:33:53 +08:00

1

@crayonyi
@GrahamCloud
提取网页正文用的什么方法， readability-lxml ？

18

GrahamCloud

OP

2016-11-10 15:16:33 +08:00

@chendajun 目前只有勾选，没有提取正文。

19

GrahamCloud

OP

2016-11-10 15:16:39 +08:00

@chendajun 目前只有自动勾选，没有提取正文。

20

crayonyi

2016-11-10 23:11:02 +08:00

1

@GrahamCloud 现在支持翻页吗？我在平台商没有找到，另外 a 链接地址也没有识别出来

21

GrahamCloud

OP

2016-11-10 23:53:45 +08:00

@crayonyi 今天刚挂了，有的功能要以后上。

22

scnace

2016-11-11 00:20:08 +08:00 via Android

1

访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛)

23

lslqtz

2016-11-11 01:16:29 +08:00

1

我希望提供 json 的数据接口，而不要 excel 。

24

GrahamCloud

OP

2016-11-11 01:52:16 +08:00

@scnace
@lslqtz 问题和需求，白天处理一下。

25

GrahamCloud

OP

2016-11-11 01:54:16 +08:00

现在大家所有的需求和发现的问题都会被感谢，也会被认真处理。
啧啧，谢谢大家。

26

GrahamCloud

OP

2016-11-11 01:55:20 +08:00

@crayonyi 现在翻页是可以的

27

wyntergreg

2016-11-11 09:10:52 +08:00

1

别的不说
你发在这里
几天以后你会发现爬了一堆奇怪的东东

28

cmisaka

2016-11-11 09:50:00 +08:00

1

在爬淘宝的一个商品页面一直在转...

29

panfake

2016-11-11 10:39:22 +08:00

1

一直 loading ，所以采集一个页面需要这么慢？

30

GrahamCloud

OP

2016-11-11 11:04:06 +08:00

@cmisaka
@panfake 感谢提出，正在处理。采集页面其实应该是非常快的。

31

GrahamCloud

OP

2016-11-11 11:04:27 +08:00

@wyntergreg 现在爬的数据，确实很奇怪。

32

billyellow

2016-11-11 11:44:42 +08:00

赞~~~~

33

popoer

2016-11-11 15:05:57 +08:00

1

多爬几次会出验证码的网站怎么办呢？

34

GrahamCloud

OP

2016-11-11 17:41:06 +08:00

目前没有这个问题。非定时任务是直接爬取，定时任务不妨试试看。

35

frankmdong

2016-11-12 10:29:58 +08:00

1

爬取到的页面能生成 RSS 地址吗

36

TKKONE

PRO

2016-11-12 11:50:57 +08:00

1

出现 500 状态码

37

byuc

2016-11-12 14:44:14 +08:00

1

创建任务的时候没有问题，但是进入到账户页面进行爬取得时候就总是执行出错了。

38

GrahamCloud

OP

2016-11-12 19:36:34 +08:00

@byuc 爬取的页面是？

39

GrahamCloud

OP

2016-11-12 19:37:12 +08:00

@tumbzzc 哪个阶段出现的 500 状态？

40

TKKONE

PRO

2016-11-12 20:43:28 +08:00

1

@GrahamCloud 输入网址之后点“点击试试”

41

byuc

2016-11-13 09:13:13 +08:00

1

@GrahamCloud 无论是什么页面，在创建完任务进行执行的时候都是提示执行出错，而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ，也失效。

42

xssing

2016-11-13 15:09:05 +08:00

1

一直在分析页面中

43

mythhack

2016-11-13 15:38:57 +08:00

一直在分析页面中

44

kukuwhu

2016-11-13 16:11:39 +08:00

1

呵呵，上次进去随便输入一个 url 无限等待中，这次又进去输入一个简单的 url ，又是无限循环等待。。。
这都能放出来？

45

GrahamCloud

OP

2016-11-13 23:10:27 +08:00

@tumbzzc
@byuc
@xssing
@kukuwhu 周末挂掉了，感谢访问！非常谢谢提出访问问题，刚做的网页谢谢大家关注。
也欢迎各种需求。

46

TKKONE

PRO

2016-11-14 11:20:06 +08:00

1

首页的那个“点击试试”还是 500 。
注册后提交网址一直是“造数正在为你分析页面”

47

GrahamCloud

OP

2016-11-14 11:25:29 +08:00

@tumbzzc 因为硬盘满了，已经修复。

48

GrahamCloud

OP

2016-11-14 23:07:34 +08:00

准备上新的 Ui 界面，欢迎批评和试用。

49

eminemcola

2016-11-15 00:19:54 +08:00

1

猴

50

yh7gdiaYW

2016-11-16 11:53:55 +08:00

1

字体闪瞎我了，首页也就算了，控制台能不能别用 Heiti SC Medium ？

51

GrahamCloud

OP

2016-11-16 12:00:51 +08:00

@yh7gdiaYW 现在弄得确实不太好，首页在测试，估计明天马上要上新的了。字体也会更新，求意见求批评。

52

zijikai

2016-11-16 12:12:17 +08:00 via iPhone

1

手机上首页不匹配，不是自响应？

53

GrahamCloud

OP

2016-11-16 12:19:58 +08:00

@zijikai 确实啊，现在只对网页端 URL 功能做了很多尝试。
手机端我们会在周五上一版 UI 。

54

wujunze

2016-11-16 13:37:51 +08:00

1

最近类似的云爬虫平台很多我记得还有一个什么神箭手来着

55

GrahamCloud

OP

2016-11-16 13:58:22 +08:00

@wujunz 好用不

56

est

2016-11-16 14:11:04 +08:00

1

还停留在 “分析页面” 这里。

57

GrahamCloud

OP

2016-11-16 14:24:44 +08:00

@est 我这里显示没问题，不知道我们是不是对浏览器适配没做好，求发浏览器和系统概况。

58

est

2016-11-16 14:31:03 +08:00

1

@GrahamCloud 又好了。你们可以上一个 mixpanel 了。

59

GrahamCloud

OP

2016-11-16 14:35:14 +08:00

@est 现在在完善分析用户行为的后台。 trace 的方法还不够好

60

alfer

2016-11-16 15:17:50 +08:00

1

抓了个淘宝页面玩玩，一直分析中。。。

61

GrahamCloud

OP

2016-11-16 15:47:41 +08:00

@alfer 准备周末推新 ui 在各种测试，实在不好意思。

62

reticentfat

2016-11-17 09:46:30 +08:00

1

输入了一个贴吧地址怎么输出页面和输入差不多

64

honkew

2016-11-17 13:18:39 +08:00

1

如果是滚动加载的数据呢

比如 http://list.le.com/listn/c2_t-1_a-1_y-1_s1_md_o20_d1_p.html

65

GrahamCloud

OP

2016-11-17 16:28:54 +08:00

@honkew 目前这样的还不支持，在需求队列中。

66

zluyuer

2016-11-17 18:51:08 +08:00

1

似乎对 Ajax 加载支持不好。例： http://shop.m.jd.com/search/search?shopId=1000010404

67

GrahamCloud

OP

2016-11-18 01:55:59 +08:00

@zluyuer 可以期待一下我们这几天马上要出的新版。

68

incrediblink

2016-11-19 22:27:04 +08:00

1

为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文，选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本，每个历史版本的界面不一样，爬起来就很麻烦。

69

jmp2x

2016-11-20 01:38:07 +08:00

1

注意下 File 协议的问题容易造成任意文件读取虽然在 Container 里我们小伙伴友情测试了下 →_→

70

csx163

2016-11-20 23:27:47 +08:00

1

注册时出现邮件 TOKEN 非法

71

GrahamCloud

OP

2016-11-21 01:07:17 +08:00

@csx163 求告知细节。

72

GrahamCloud

OP

2016-11-21 01:08:36 +08:00

@incrediblink 正文我测试了两次还可以运行，求告知具体配置。
争取周一解决。

73

csx163

2016-11-21 11:02:16 +08:00 via Android

1

@GrahamCloud QQ 邮箱，注册时复制邮箱收到的链接到地址栏，打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。

74

GrahamCloud

OP

2016-11-21 11:31:30 +08:00

@csx163 现在注册还有问题是么

75

GrahamCloud

OP

2016-11-21 12:01:13 +08:00

@jmp2x 感谢小伙伴，强烈感谢。

76

GrahamCloud

OP

2016-11-21 17:00:58 +08:00

@crayonyi
@byuc
@csx163
@jmp2x
@reticentfat 新的 ui 上线了，希望大家看到会感到一点舒爽，另外欢迎加团队微信，微信号： Zaoshuio 。

77

brucedone

2016-11-21 17:18:47 +08:00

1

我目前想到的，对于”下一页“的解析不是那么的完善，可以考虑增加开发者模式，如果当前的选中单位不符合自己的预期的话，可以自己去编辑。总的来说，和 pyspider ，以及 portia 一样，都是很不错的东东，需要更加的打磨一下就是一个好产品了。

78

GrahamCloud

OP

2016-11-21 17:32:36 +08:00

@brucedone 目前可能确实有个开发者模式能更好的服务客户。

79

anexplore

2016-11-22 12:37:52 +08:00

1

https://scrapinghub.com/portia/

80

crayonyi

2016-11-22 14:30:58 +08:00

1

新 UI 不错

81

GrahamCloud

OP

2016-11-22 15:52:21 +08:00

@crayonyi 马上还有更多新功能

82

cc55555

2016-12-23 14:36:18 +08:00

1

希望可以添加将图片或文章自动发送到邮箱， Post 到 G+、 Twitter 、 Tumblr 等。

83

OP
2016-12-23 14:58:33 +08:00

@cc55555 这三个估计短期内还上不了，图片在考虑

84

cc55555

2017-01-22 08:22:00 +08:00

1

@GrahamCloud 试用了一下，数据不能转发到邮箱？
能否实现将数据推送到 dropbox 等云存储？或者生成 RSS 地址？国外的很多云爬虫网站都有这两项功能。

谢谢！

85

cc55555

2017-01-22 13:23:29 +08:00

1

http://www.infosec-wiki.com/?p=308
看到了这篇文章，或许对于你有用处

86

GrahamCloud

OP

2017-01-23 11:48:12 +08:00

@cc55555 可以转发到邮箱， rss 和 dropbox 还暂时在排期开靠后的部分，求加团队微信： Zaoshuio

87

Limius

2017-03-07 17:40:22 +08:00

1

@GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢，发现翻页的话网址也没有变化。

88

GrahamCloud

OP

2017-03-07 17:43:10 +08:00

@Limius 好问题

89

figofuture

2017-03-13 09:54:22 +08:00

收藏了

90

4BVL25L90W260T9U

2017-03-18 15:31:54 +08:00

1

感觉和 import.io 还有些差距，加油

91

GrahamCloud

OP

2017-03-20 18:59:27 +08:00

@ospider 感谢！

92

ZernonHuang

2017-03-28 22:01:38 +08:00

1

您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下.

93

GrahamCloud

OP

2017-03-29 11:33:02 +08:00

@ZernonHuang 您是手机看了下吧， web 端免费试用，我们的反爬比较专业，使用后可以多提意见和需求。

94

yangxin0

2017-04-06 12:36:50 +08:00

噗。。。明明一个简单页面提取工具，这不叫爬虫啊

这里是造数，正在写一个智能云爬虫给大家，快来玩耍

hello ，大家好，我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站，我们想试着让用户能最简单的使用爬虫技术，这个阶段，已经能够自动识别你想爬的数据类型了.