造数发布详情页/二级页面通用采集功能咯,求探讨研究,求意见。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX    推广

造数发布详情页/二级页面通用采集功能咯,求探讨研究,求意见。

  •  1
     
  •   GrahamCloud 2017 年 2 月 27 日 4743 次点击
    这是一个创建于 3239 天前的主题,其中的信息可能已经有所发展或是发改变。

    来这里看新功能加持的 造数 zaoshu.io

    撒花! 我们又在大家的意见中改进了 详情页爬取的功能,快来扔砖! 另外我们就之前的功能做了一个详细的讲解视频,欢迎大家看,知名声优配音哦。 欢迎更多的意见。

    讲解视频在这里

    32 条回复    2017-04-22 15:17:54 +08:00
    eminemcola
        1
    eminemcola  
       2017 年 2 月 27 日   1
    好!
    GrahamCloud
        2
    GrahamCloud  
    OP
       2017 年 2 月 27 日
    @eminemcola 好在哪!
    skywayman
        3
    skywayman  
       2017 年 2 月 27 日   1
    广告?
    GrahamCloud
        4
    GrahamCloud  
    OP
       2017 年 2 月 27 日
    @skywayman 不是不是
    sohoer
        5
    sohoer  
       2017 年 2 月 27 日   1
    这么久了数据还是对不齐,哈哈
    eminemcola
        6
    eminemcola  
       2017 年 2 月 27 日
    @GrahamCloud 哪儿都好!
    mingyun
        7
    mingyun  
       2017 年 2 月 27 日   1
    还录制视频,赞一个
    seiuneko
        8
    seiuneko  
       2017 年 2 月 28 日   1
    https://dashboard.zaoshu.io/ 隔几秒弹出 [任务列表中没有任务]
    以及 现在竖屏打开首页还是没有显示图标
    GrahamCloud
        9
    GrahamCloud  
    OP
       2017 年 2 月 28 日
    @sohoer 哪个数据,很多都改正了啊。
    GrahamCloud
        10
    GrahamCloud  
    OP
       2017 年 2 月 28 日
    @mingyun 新功能还会配视频的。
    GrahamCloud
        11
    GrahamCloud  
    OP
       2017 年 2 月 28 日
    @F0nebula 竖屏是不支持,弹出这个求问详细。
    Anine
        12
    Anine  
       2017 年 2 月 28 日 via iPhone   1
    有 API 吗
    GrahamCloud
        13
    GrahamCloud  
    OP
       2017 年 2 月 28 日
    @zhouxu417 马上会上,可以提需求一块琢磨。也欢迎加团队微信: Zaoshuio
    lingoerer
        14
    lingoerer/strong>  
       2017 年 2 月 28 日   1
    数据爬出来放 Excel 差评啊……
    GrahamCloud
        15
    GrahamCloud  
    OP
       2017 年 2 月 28 日
    @lingoerer 为啥差评,输出 还有很多其他格式可以选择啊。
    seiuneko
        16
    seiuneko  
       2017 年 2 月 28 日   1
    @GrahamCloud #11 好吧
    没有任务时一直弹出

    https://dashboard.zaoshu.io/
    seiuneko
        17
    seiuneko  
       2017 年 2 月 28 日   1
    参考了 t/332852
    GrahamCloud
        18
    GrahamCloud  
    OP
       2017 年 3 月 1 日
    @F0nebula 感谢,求加 微信: Zaoshuio
    NirvanaCN
        19
    NirvanaCN  
       2017 年 3 月 1 日   1
    上次抓 JD 的数据 抓了十分钟 什么也没抓到 还报错了
    GrahamCloud
        20
    GrahamCloud  
    OP
       2017 年 3 月 1 日
    @NirvanaCN 现在好了没有,没有就再解决一下。
    jijiwaiwai
        21
    jijiwaiwai  
       2017 年 3 月 2 日   1
    @NirvanaCN JD 有防爬虫机制,可以切换代理
    http://www.infosec-wiki.com/?p=344
    jijiwaiwai
        22
    jijiwaiwai  
       2017 年 3 月 2 日   1
    打造自己的云爬虫; http://www.infosec-wiki.com/?p=308
    GrahamCloud
        23
    GrahamCloud  
    OP
       2017 年 3 月 2 日
    @jijiwaiwai 文章很有意思。
    GrahamCloud
        24
    GrahamCloud  
    OP
       2017 年 3 月 2 日
    @jijiwaiwai 架构很有意思,求加微信: Zaoshuio
    Reign
        25
    Reign  
       2017 年 3 月 3 日   2
    一直搞不懂这种云爬虫优势在什么地方,实际爬网站的时候遇到的情况千变万化,控制频率、切换代理、验证码、邮箱验证、手机验证、伪装 header 等等,各种网站反爬虫系列一个比一个厉害,遇到没 header 的,加入黑名单,遇到只请求内容不请求 css 的,加入黑名单,遇到 phantomjs 的,加入黑名单,请求次数太猛的,加入黑名单。如果真的是爬一个简单的新闻页面, chrome 一个 F12 ,几分钟就创建一个爬虫,还需要在页面上点过去点过来啊?
    LittleWhiteMouse
        26
    LittleWhiteMouse  
       2017 年 3 月 3 日   1
    @Reign +1

    想爬的时候用它爬不成,不是工具不好,是肯定被各种反杀。

    可视化选择很好,但是想选中合适的元素并不容易,除非可以自己定制选择器……

    都这么麻烦了,自己写个油猴脚本也就把事情办了,效率是低了点,但是被杀的可能性也低了,工作量不是很大的情况已经足够用了
    GrahamCloud
        27
    GrahamCloud  
    OP
       2017 年 3 月 3 日
    @< href="/member/Reign">Reign 说的有道理,目前解决一些 完全没编程基础的 分析人士基本采集数据的需求,还是反响不错的。
    你说的反爬,验证,我们都会一个个完善的。
    欢迎加团队微信: Zaoshuio
    期待更多意见
    GrahamCloud
        28
    GrahamCloud  
    OP
       2017 年 3 月 3 日
    @LittleWhiteMouse 就是因为有反杀的才有一点商业价值啊, v2 都是程序员背景为主,其实还有很多人还是最原始的方式抓取信息。
    LittleWhiteMouse
        29
    LittleWhiteMouse  
       2017 年 3 月 3 日   1
    @GrahamCloud #28

    可以自己输入选择器么?作为高级功能,现在的可视选择很多情况下只是让人窝火
    GrahamCloud
        30
    GrahamCloud  
    OP
       2017 年 3 月 3 日
    @LittleWhiteMouse 暂时不会支持选择器功能,以后可能会上。
    Livid
        31
    Livid  
    MOD
    PRO
       2017 年 3 月 6 日
    duhai973
        32
    duhai973  
       2017 年 4 月 22 日
    高不成,低不就
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2654 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION 3.9.8.5 29ms UTC 04:15 PVG 12:15 LAX 20:15 JFK 23:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86