这里是造数,正在写一个智能云爬虫给大家,快来玩耍 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX    推广

这里是造数,正在写一个智能云爬虫给大家,快来玩耍

  •  4
     
  •   GrahamCloud 2016-11-09 15:28:32 +08:00 18679 次点击
    这是一个创建于 3265 天前的主题,其中的信息可能已经有所发展或是发生改变。

    hello ,大家好,我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站,我们想试着让用户能最简单的使用爬虫技术,这个阶段,已经能够自动识别你想爬的数据类型了.

    如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。

     热切期待新需求,和反馈问题的造数团队: [email protected] www.zaoshu.io 
    94 条回复    2017-04-06 12:36:50 +08:00
    GrahamCloud
        1
    GrahamCloud  
    OP
       2016-11-09 17:11:33 +08:00
    会推出一些 side project 方便需求,如果想试用也可以联系我。
    crayonyi
        2
    crayonyi  
       2016-11-09 18:21:44 +08:00   2
    对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/)
    GrahamCloud
        3
    GrahamCloud  
    OP
       2016-11-09 18:32:52 +08:00
    @crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。
    wjm2038
        4
    wjm2038  
       2016-11-09 21:56:39 +08:00 via Android   1
    不错
    GrahamCloud
        5
    GrahamCloud  
    OP
       2016-11-09 22:20:17 +08:00
    @wjm2038 有什么问题,或者有什么想法一定要告诉我。
    mingyun
        6
    mingyun  
       2016-11-09 23:34:26 +08:00   1
    赞一个
    sssdjiui
        7
    sssdjiui  
       2016-11-10 01:35:20 +08:00   2
    lyonbot
        8
    lyonbot  
       2016-11-10 01:49:31 +08:00
    试玩了一下,目前感觉和 import.io 挺像的,感觉还凑合吧,希望后续能看到有趣的功能
    strwei
        9
    strwei  
       2016-11-10 01:51:13 +08:00
    不错哦
    binux
        10
    binux  
       2016-11-10 01:57:52 +08:00   1
    上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。
    给个例子: http://www.ikea.com/gb/en/search/?k=chair
    lhx2008
        11
    lhx2008  
       2016-11-10 08:38:36 +08:00 via Android   1
    安卓手机下有严重的错位。。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2016-11-10 11:05:59 +08:00
    @lhx2008 现在刚开始做,手机适配还不行。
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-11-10 11:07:05 +08:00
    @binux 这个问题下周会上一个新版解决。
    谢谢上次提出来。这两周 bug 比较多。
    crayonyi
        14
    crayonyi  
       2016-11-10 11:31:02 +08:00   1
    @GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler
    Magic347
        15
    Magic347  
       2016-11-10 13:40:43 +08:00   1
    import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进:
    例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据,
    造数目前是没法采集到的,但是 import.io 是可以准确采集到的。
    GrahamCloud
        16
    GrahamCloud  
    OP
       2016-11-10 14:19:54 +08:00
    @Magic347 说得对,现在对这类支持的还是不够。
    chendajun
        17
    chendajun  
       2016-11-10 14:33:53 +08:00   1
    @crayonyi
    @GrahamCloud
    提取网页正文用的什么方法, readability-lxml ?
    GrahamCloud
        18
    GrahamCloud  
    OP
       2016-11-10 15:16:33 +08:00
    @chendajun 目前只有勾选,没有提取正文。
    GrahamCloud
        19
    GrahamCloud  
    OP
       2016-11-10 15:16:39 +08:00
    @chendajun 目前只有自动勾选,没有提取正文。
    crayonyi
        20
    crayonyi  
       2016-11-10 23:11:02 +08:00   1
    @GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来
    GrahamCloud
        21
    GrahamCloud  
    OP
       2016-11-10 23:53:45 +08:00
    @crayonyi 今天刚挂了,有的功能要以后上。
    scnace
        22
    scnace  
       2016-11-11 00:20:08 +08:00 via Android   1
    访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛)
    lslqtz
        23
    lslqtz  
       2016-11-11 01:16:29 +08:00   1
    我希望提供 json 的数据接口,而不要 excel 。
    GrahamCloud
        24
    GrahamCloud  
    OP
       2016-11-11 01:52:16 +08:00
    @scnace
    @lslqtz 问题和需求,白天处理一下。
    GrahamCloud
        25
    GrahamCloud  
    OP
       2016-11-11 01:54:16 +08:00
    现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。
    啧啧,谢谢大家。
    GrahamCloud
        26
    GrahamCloud  
    OP
       2016-11-11 01:55:20 +08:00
    @crayonyi 现在翻页是可以的
    wyntergreg
        27
    wyntergreg  
       2016-11-11 09:10:52 +08:00   1
    别的不说
    你发在这里
    几天以后你会发现爬了一堆奇怪的东东
    cmisaka
        28
    cmisaka  
       2016-11-11 09:50:00 +08:00   1
    在爬淘宝的一个商品页面一直在转...
    panfake
        29
    panfake  
       2016-11-11 10:39:22 +08:00   1
    一直 loading ,所以采集一个页面需要这么慢?
    GrahamCloud
        30
    GrahamCloud  
    OP
       2016-11-11 11:04:06 +08:00
    @cmisaka
    @panfake 感谢提出,正在处理。采集页面其实应该是非常快的。
    GrahamCloud
        31
    GrahamCloud  
    OP
       2016-11-11 11:04:27 +08:00
    @wyntergreg 现在爬的数据,确实很奇怪。
    billyellow
        32
    billyellow  
       2016-11-11 11:44:42 +08:00
    赞~~~~
    popoer
        33
    popoer  
       2016-11-11 15:05:57 +08:00   1
    多爬几次会出验证码的网站怎么办呢?
    GrahamCloud
        34
    GrahamCloud  
    OP
       2016-11-11 17:41:06 +08:00
    目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。
    frankmdong
        35
    frankmdong  
       2016-11-12 10:29:58 +08:00   1
    爬取到的页面能生成 RSS 地址吗
    asd103
        36
    asd103  
       2016-11-12 11:50:57 +08:00   1
    出现 500 状态码
    byuc
        37
    byuc  
       2016-11-12 14:44:14 +08:00   1
    创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。
    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-11-12 19:36:34 +08:00
    @byuc 爬取的页面是?
    GrahamCloud
        39
    GrahamCloud  
    OP
       2016-11-12 19:37:12 +08:00
    @tumbzzc 哪个阶段出现的 500 状态?
    asd103
        40
    asd103  
       2016-11-12 20:43:28 +08:00   1
    @GrahamCloud 输入网址之后点“点击试试”
    byuc
        41
    byuc  
       2016-11-13 09:13:13 +08:00   1
    @GrahamCloud 无论是什么页面,在创建完任务进行执行的时候都是提示执行出错,而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ,也失效。
    xssing
        42
    xssing  
       2016-11-13 15:09:05 +08:00   1
    一直在分析页面中
    mythhack
        43
    mythhack  
       2016-11-13 15:38:57 +08:00
    一直在分析页面中
    kukuwhu
        44
    kukuwhu  
       2016-11-13 16:11:39 +08:00   1
    呵呵,上次进去随便输入一个 url 无限等待中,这次又进去输入一个简单的 url ,又是无限循环等待。。。
    这都能放出来?
    GrahamCloud
        45
    GrahamCloud  
    OP
       2016-11-13 23:10:27 +08:00
    @tumbzzc
    @byuc
    @xssing
    @kukuwhu 周末挂掉了,感谢访问!非常谢谢提出访问问题,刚做的网页谢谢大家关注。
    也欢迎各种需求。
    asd103
        46
    asd103  
       2016-11-14 11:20:06 +08:00   1
    首页的那个“点击试试”还是 500 。
    注册后提交网址一直是“造数正在为你分析页面”
    GrahamCloud
        47
    GrahamCloud  
    OP
       2016-11-14 11:25:29 +08:00
    @tumbzzc 因为硬盘满了,已经修复。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2016-11-14 23:07:34 +08:00
    准备上新的 Ui 界,欢迎批评和试用。
    eminemcola
        49
    eminemcola  
       2016-11-15 00:19:54 +08:00   1
    yh7gdiaYW
        50
    yh7gdiaYW  
       2016-11-16 11:53:55 +08:00   1
    字体闪瞎我了,首页也就算了,控制台能不能别用 Heiti SC Medium ?
    GrahamCloud
        51
    GrahamCloud  
    OP
       2016-11-16 12:00:51 +08:00
    @yh7gdiaYW 现在弄得确实不太好,首页在测试,估计明天马上要上新的了。字体也会更新,求意见求批评。
    zijikai
        52
    zijikai  
       2016-11-16 12:12:17 +08:00 via iPhone   1
    手机上首页不匹配,不是自响应?
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-11-16 12:19:58 +08:00
    @zijikai 确实啊,现在只对网页端 URL 功能做了很多尝试。
    手机端我们会在周五上一版 UI 。
    wujunze
        54
    wujunze  
       2016-11-16 13:37:51 +08:00   1
    最近类似的云爬虫平台很多 我记得还有一个什么 神箭手来着
    GrahamCloud
        55
    GrahamCloud  
    OP
       2016-11-16 13:58:22 +08:00
    @wujunze 好用不
    est
        56
    est  
       2016-11-16 14:11:04 +08:00   1
    还停留在 “分析页面” 这里。
    GrahamCloud
        57
    GrahamCloud  
    OP
       2016-11-16 14:24:44 +08:00
    @est 我这里显示没问题,不知道我们是不是对浏览器适配没做好,求发浏览器和系统概况。
    est
        58
    est  
       2016-11-16 14:31:03 +08:00   1
    @GrahamCloud 又好了。你们可以上一个 mixpanel 了。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-11-16 14:35:14 +08:00
    @est 现在在完善分析用户行为的后台。 trace 的方法还不够好
    alfer
        60
    alfer  
       2016-11-16 15:17:50 +08:00   1
    抓了个淘宝页面玩玩,一直分析中。。。
    GrahamCloud
        61
    GrahamCloud  
    OP
       2016-11-16 15:47:41 +08:00
    @alfer 准备周末推新 ui 在各种 测试,实在不好意思。
    reticentfat
        62
    reticentfat  
       2016-11-17 09:46:30 +08:00   1
    输入了一个贴吧地址怎么输出页面和输入差不多
    GrahamCloud
        63
    GrahamCloud  
    OP
       2016-11-17 11:26:42 +08:00
    @reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。
    honkew
        64
    honkew  
       2016-11-17 13:18:39 +08:00   1
    如果是滚动加载的数据呢

    比如 http://list.le.com/listn/c2_t-1_a-1_y-1_s1_md_o20_d1_p.html
    GrahamCloud
        65
    GrahamCloud  
    OP
       2016-11-17 16:28:54 +08:00
    @honkew 目前这样的还不支持,在需求队列中。
    zluyuer
        66
    zluyuer  
       2016-11-17 18:51:08 +08:00   1
    似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404
    GrahamCloud
        67
    GrahamCloud  
    OP
       2016-11-18 01:55:59 +08:00
    @zluyuer 可以期待一下我们这几天马上要出的新版。
    incrediblink
        68
    incrediblink  
       2016-11-19 22:27:04 +08:00   1
    为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。
    jmp2x
        69
    jmp2x  
       2016-11-20 01:38:07 +08:00   1
    注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→
    csx163
        70
    csx163  
       2016-11-20 23:27:47 +08:00   1
    注册时出现邮件 TOKEN 非法
    GrahamCloud
        71
    GrahamCloud  
    OP
       2016-11-21 01:07:17 +08:00
    @csx163 求告知细节。
    GrahamCloud
        72
    GrahamCloud  
    OP
       2016-11-21 01:08:36 +08:00
    @incrediblink 正文我测试了两次还可以运行,求告知具体配置。
    争取周一解决。
    csx163
        73
    csx163  
       2016-11-21 11:02:16 +08:00 via Android   1
    @GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。
    GrahamCloud
        74
    GrahamCloud  
    OP
       2016-11-21 11:31:30 +08:00
    @csx163 现在注册还有问题是么
    GrahamCloud
        75
    GrahamCloud  
    OP
       2016-11-21 12:01:13 +08:00
    @jmp2x 感谢小伙伴,强烈感谢。
    GrahamCloud
        76
    GrahamCloud  
    OP
       2016-11-21 17:00:58 +08:00
    @crayonyi
    @byuc
    @csx163
    @jmp2x
    @reticentfat 新的 ui 上线了,希望大家看到会感到一点舒爽,另外欢迎加团队微信,微信号: Zaoshuio 。
    brucedone
        77
    brucedone  
       2016-11-21 17:18:47 +08:00   1
    我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。
    GrahamCloud
        78
    GrahamCloud  
    OP
       2016-11-21 17:32:36 +08:00
    @brucedone 目前可能确实有个开发者模式能更好的服务客户。
    anexplore
        79
    anexplore  
       2016-11-22 12:37:52 +08:00   1
    crayonyi
        80
    crayonyi  
       2016-11-22 14:30:58 +08:00   1
    新 UI 不错
    GrahamCloud
        81
    GrahamCloud  
    OP
       2016-11-22 15:52:21 +08:00
    @crayonyi 马上还有更多新功能
    cc55555
        82
    cc55555  
       2016-12-23 14:36:18 +08:00   1
    希望可以添加将图片或文章自动发送到邮箱, Post 到 G+、 Twitter 、 Tumblr 等。
    GrahamCloud
        83
    GrahamCloud  
    OP
      2016-12-23 14:58:33 +08:00
    @cc55555 这三个估计短期内还上不了,图片在考虑
    cc55555
        84
    cc55555  
       2017-01-22 08:22:00 +08:00   1
    @GrahamCloud 试用了一下,数据不能转发到邮箱?
    能否实现将数据推送到 dropbox 等云存储?或者生成 RSS 地址?国外的很多云爬虫网站都有这两项功能。

    谢谢!
    cc55555
        85
    cc55555  
       2017-01-22 13:23:29 +08:00   1
    http://www.infosec-wiki.com/?p=308
    看到了这篇文章,或许对于你有用处
    GrahamCloud
        86
    GrahamCloud  
    OP
       2017-01-23 11:48:12 +08:00
    @cc55555 可以转发到邮箱, rss 和 dropbox 还暂时在排期开靠后的部分,求加团队微信: Zaoshuio
    Limius
        87
    Limius  
       2017-03-07 17:40:22 +08:00   1
    @GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢,发现翻页的话网址也没有变化。
    GrahamCloud
        88
    GrahamCloud  
    OP
       2017-03-07 17:43:10 +08:00
    @Limius 好问题
    figofuture
        89
    figofuture  
       2017-03-13 09:54:22 +08:00
    收藏了
    4BVL25L90W260T9U
        90
    4BVL25L90W260T9U  
       2017-03-18 15:31:54 +08:00   1
    感觉和 import.io 还有些差距,加油
    GrahamCloud
        91
    GrahamCloud  
    OP
       2017-03-20 18:59:27 +08:00
    @ospider 感谢!
    ZernonHuang
        92
    ZernonHuang  
       2017-03-28 22:01:38 +08:00   1
    您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下.
    GrahamCloud
        93
    GrahamCloud  
    OP
       2017-03-29 11:33:02 +08:00
    @ZernonHuang 您是手机看了下吧, web 端免费试用,我们的反爬比较专业,使用后可以多提意见和需求。
    yangxin0
        94
    yangxin0  
       2017-04-06 12:36:50 +08:00
    噗。。。明明一个简单页面提取工具,这不叫爬虫啊
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1447 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 16:47 PVG 00:47 LAX 09:47 JFK 12:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86