关于数据采集需求的讨论帖 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
GrahamCloud
V2EX    程序员

关于数据采集需求的讨论帖

  •  
      GrahamCloud 2017-01-10 11:45:46 +08:00 7721 次点击
    这是一个创建于 3203 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。

    另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里

    论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。

    第 1 条附言    2017-01-11 11:38:32 +08:00
    搭了一个论坛,准备发布资源,也方便大家讨论数据方面信息。

    https://forum.zaoshu.io/
    第 2 条附言    2017-02-06 11:58:52 +08:00
    我们精心制作了 功能视频:
    ?from=s1.8-1-1.2&spm=a2h0k.8191407.0.0
    62 条回复    2017-01-20 14:42:05 +08:00
    Powered
        1
    Powered  
       2017-01-10 12:18:41 +08:00 via iPhone   1
    爬虫没太大技术含量
    syk
        2
    syk  
       2017-01-10 12:19:07 +08:00   1
    在一家在线销售餐饮设备的公司干过,主要收集的最多就是淘宝同类商品价格,图片,商品链接。其次就是同类竞争商家网站销售的设备设备种类!
    GrahamCloud
        3
    GrahamCloud  
    OP
       2017-01-10 12:56:00 +08:00
    @Powered 你这个没说错,技术含量 体现应该是通用性,优化存取和 针对策略上。
    GrahamCloud
        4
    GrahamCloud  
    OP
       2017-01-10 12:56:16 +08:00
    @syk 求使用建议
    xiamx
        5
    xiamx  
       2017-01-10 13:31:18 +08:00   1
    希望定价能显示在主页上
    imn1
        6
    imn1  
       2017-01-10 13:49:42 +08:00   1
    简单说,数据有效期达到按年为单位的,都是值得保留的
    时效越短,其专用性质越强,就是使用人群越单一
    GrahamCloud
        7
    GrahamCloud  
    OP
       2017-01-10 14:04:22 +08:00
    @imn1 这个点非常对。
    GrahamCloud
        8
    GrahamCloud  
    OP
       2017-01-10 14:04:36 +08:00
    @xiamx 什么定价
    langmoe
        9
    langmoe  
       2017-01-10 14:07:54 +08:00   1
    通用的。。比如这货?
    http://www.shenjianshou.cn
    yuntong
        10
    yuntong  
       2017-01-10 14:11:55 +08:00   1
    不好用...
    zhaixiaohu
        11
    zhaixiaohu  
       2017-01-10 17:40:31 +08:00   1
    怎么一直都是正在爬取,看不了结果
    GrahamCloud
        12
    GrahamCloud  
    OP
       2017-01-10 18:09:12 +08:00
    @langmoe 方向不一样,我们想让用户完全不用写代码。
    GrahamCloud
        13
    GrahamCloud  
    OP
       2017-01-10 18:09:26 +08:00
    @zhaixiaohu
    @yuntong 求告知问题
    txlty
        14
    txlty  
       2017-01-10 18:37:34 +08:00   2
    站长圈子有个古老的产品,叫“火车头”。
    langmoe
        15
    langmoe  
       2017-01-10 18:39:40 +08:00   1
    @GrahamCloud 是不用写,神箭手做的就是这一块市场。开发者负责提交不同网站的爬虫规则换取报酬,而真正需要爬虫的用户,只需要在商城查找并购买规则,就可以拿到源源不断的数据。
    kindjeff
        16
    kindjeff  
       2017-01-10 19:29:59 +08:00 via iPhone   1
    微博的数据啊,但是爬起来很困难。

    分析微博粉丝结构,评论转发点赞的人的结构还有趋势。
    frankzeng
        17
    frankzeng  
       2017-01-10 21:22:25 +08:00   1
    要一个输入商品的 url 就能获取到他的价格,名称,分类,图片这些
    yuntong
        18
    yuntong  
       2017-01-11 08:54:40 +08:00   1
    @GrahamCloud 估计是我采用墙外连接的原因...分析时间长并且超时...
    所有需求你懂的...

    还是用自己专门定制的爬虫机器人靠谱啊...
    GrahamCloud
        19
    GrahamCloud  
    OP
       2017-01-11 11:39:11 +08:00
    @langmoe 这个模式有意思
    GrahamCloud
        20
    GrahamCloud  
    OP
       2017-01-11 11:41:38 +08:00
    @frankzeng 这个是基本需求,目标网站一般是哪些
    GrahamCloud
        21
    GrahamCloud  
    OP
       2017-01-11 11:42:51 +08:00
    @yuntong 只能尽量让你不用写然后省点力,然后再说靠谱的事,暗坑太多了现在。
    GrahamCloud
        22
    GrahamCloud  
    OP
       2017-01-11 11:43:11 +08:00
    @txlty 火车头我晓得。
    skywayman
        23
    skywayman  
       2017-01-12 12:03:20 +08:00   1
    @Powered 把 facebook 的 js 动态生成页面+5 年以上的瀑布流数据+5W 人数据爬出来我就服...
    @GrahamCloud 能爬社交网站么?
    GrahamCloud
        24
    GrahamCloud  
    OP
       2017-01-12 12:29:30 +08:00
    @skywayman 部分可以,很多反爬的还搞不定。
    quericy
        25
    quericy  
       2017-01-12 13:01:24 +08:00   1
    这么久了,上次那个遮罩的问题还是没搞定么...
    GrahamCloud
        26
    GrahamCloud  
    OP
       2017-01-12 13:19:40 +08:00
    @quericy 遮罩意外的不好解决,我们会在年前再出一版再应对一下。
    Powered
        27
    Powered  
       2017-01-13 11:56:49 +08:00   1
    @skywayman 普通爬虫原理不简单?下载页面--->解析--->持久化
    有很多反爬虫机制的网站为什么要去爬?显得你牛逼吗
    skywayman
        28
    skywayman  
       2017-01-13 12:13:49 +08:00
    @Powered 说得不错,普通爬虫的确是这样,但也有很多爬虫不是这样的,却被你一句:爬虫没太大技术含量全盘推倒.
    没含量你写个超过谷歌,百度的好了,瞎嚷嚷,还"为什么要去爬?显得你牛逼吗",你 CEO 还 CTO 啊?公司业务是你我一个码农说不爬就不爬的?不想干就滚蛋...
    Powered
        29
    Powered  
       2017-01-13 18:58:29 +08:00 via iPhone
    @skywayman
    最 low 的辩论者往往会举一些吓唬人的例子,你用你的脑袋去想一下人家为什么要反爬虫,为的是什么?我猜为的就是防范你这种恶意爬取,消耗带宽和吞吐量的人吧。公司的业务是这个,我也是醉了。。。靠爬一些很难爬到的数据活着的公司,我也只能想到黑产了。唉。
    voidtools
        30
    voidtools  
       2017-01-13 21:39:10 +08:00 via Android
    小额的数据,纯个人需求,用自动翻页,正则就行了。 JS 动态搞不定。
    skywayman
        31
    skywayman  
       2017-01-13 21:50:44 +08:00   1
    @Powered 你还在象牙塔吗? 法律规定不能杀人,还有人杀吧, 别人反爬就不能爬了? 智商捉急...
    最近团队有个项目就是为 Party 做爬虫,就是爬你说的这种反爬虫的网站. 舆情听说过吧,算了,可开阔你眼界的.奈何你...!
    朋友,凡是你浅尝辄止过都不要说简单, 做不到的不是别人 low,反而是你自己,开阔点眼界吧,对将来有好处!
    Powered
        32
    Powered  
       2017-01-14 09:07:49 +08:00 via iPhone
    @skywayman

    对于你这种人,现实生活中感觉应该没人跟你做朋友吧。我也不想跟你耗费口舌,毕竟键盘侠我甘拜下风。被狗咬了,我不至于咬回去。掉价。
    SlipStupig
        33
    SlipStupig  
       2017-01-14 09:35:55 +08:00   3
    穷码农创业三俗:爬虫、微信、直播间,作为一个其中一员给你一些建议(觉得不好当我胡说):
    1.产品定位很重要别想解决所有的问题,码农创业很容易只想技术而忽略商业,我认为你这种东西方式上就不可能抓取特别复杂的页面,还是那个话,你这种东西只能给一些公司非技术人员用,爬虫在 ETL 这个环节内,解决的是 E 的问题,我朋友她们公司是做电商的有 10 多人的运营团队除了日常工作外额外就是每天人肉去网上找图找文章(老板觉得养个程序员没必要,反正找不到文章的开除),你这个很容易解决她们的难处

    2.对用用户权限自由度的把握,你既然想着户有足够的自由度,例如反抓取这些事情,你就不要管了,这些都是用户来决定,你提供解决方案的 API 就行,如果你不想用户去解决,那你就尽量不让用户插手,这个是一个侧重关系

    3.盈利模式这块早期越单一越好,路想太多了,容易没路走
    GrahamCloud
        34
    GrahamCloud  
    OP
       2017-01-16 11:44:44 +08:00
    @SlipStupig 求加微信, Zaoshuio
    GrahamCloud
        35
    GrahamCloud  
    OP
       2017-01-16 12:15:40 +08:00
    @SlipStupig 说的确实好啊
    copperusher
        36
    copperusher  
       2017-01-16 13:49:00 +08:00   1
    这个方向肯定没问题的,国外早就这样的网站了。关键是做得怎么样,以及如何找到用户。如果不能把这个工具嵌入用户现有的业务流程,那就很难把它发展起来。可以在网站首页给出你们设想的具体用户案例,那样更有说服力。
    j4fun
        37
    j4fun  
       2017-01-16 14:01:12 +08:00   1
    使用感觉。。好像速度特别慢,点了个示例上的 github trending ,上了个厕所回来还没好,不知道是不是姿势不对。(是不是需要控制一下每次爬取的数量,或者时间这样的。不要一次爬到完。)
    恩。其实我觉得, 2C 和 2B 要想好吧, 2B 就简单一点,但是竞争会多一些吧。
    2C 的话技术含量会高一些,爬社交之类的有反爬系统的会比较多。(不过有被 LOW 的风险?不懂~)
    GrahamCloud
        38
    GrahamCloud  
    OP
       2017-01-16 14:12:11 +08:00
    @j4fun 现在是 to B 方向,目前通用遇到的暗坑很多。
    GrahamCloud
        39
    GrahamCloud  
    OP
       2017-01-16 16:37:26 +08:00
    @j4fun GitHub 好像今天是有一些问题,其他的您这边反应如何?
    j4fun
        40
    j4fun  
       2017-01-16 16:51:51 +08:00   1
    @GrahamCloud 下午又试了一次很快就出来了。。效果不错:)
    skywayman
        41
    skywayman  
       2017-01-16 19:13:13 +08:00   2
    @Powered 鄙视技术没含量的是你,说别人 low 的也是你,指桑骂槐说别人是狗的还是你,说越多好像越来越暴露你的本性了,原来你是这样的人!一开始就把自己摆在所谓的道德制高点来俯视别人,你这种二逼+傻叉在我十多年上网史中见得多了,宠辱不惊!
    GrahamCloud
        42
    GrahamCloud  
    OP
       2017-01-17 11:53:38 +08:00
    @j4fun 谢谢,有哪里不爽您马上告诉我。
    GrahamCloud
        43
    GrahamCloud  
    OP
       2017-01-17 11:55:44 +08:00
    @skywayman 别在意这个,别在意。说爬虫技术含量低是说我们业务呢,您跟着不开心就不好了。
    jiangzhuo
        44
    jiangzhuo  
       2017-01-17 12:13:07 +08:00   1
    觉得用过功能最好的算是 diffbot , API 设计也最合理
    GrahamCloud
        45
    GrahamCloud  
    OP
       2017-01-17 12:32:57 +08:00
    @jiangzhuo 努力的方向啊
    renyiqiu
        46
    renyiqiu  
       2017-01-17 13:01:17 +08:00   1
    怎么收费
    GrahamCloud
        47
    GrahamCloud  
    OP
       2017-01-17 13:18:57 +08:00
    @renyiqiu 数据方面有什么需求么?求加微信 Zaoshuio
    GrahamCloud
        48
    GrahamCloud  
    OP
       2017-01-17 13:27:45 +08:00
    @Powered 求建议求意见求反馈。
    Hansah
        49
    Hansah  
       2017-01-17 15:17:11 +08:00   1
    我不是程序员。。。我觉得免费的火车头都比现在大部分 web 爬虫要好用多了,也易用多了, so ?
    GrahamCloud
        50
    GrahamCloud  
    OP
       2017-01-17 15:43:45 +08:00
    @siknet 这个信心我们还是有,欢迎比对。
    jiangzhuo
        51
    jiangzhuo  
       2017-01-18 12:05:46 +08:00   1
    @GrahamCloud
    @siknet
    作为一个程序员,安装完火车头后搞了 5 分钟后还没有弄清楚怎么用就已经把这软件卸载了。
    造数胜在操作简单,基本只有鼠标操作。
    当然作为程序员来说最省事还是写个正则或者 chrome 里复制粘贴一个 selector
    Hansah
        52
    Hansah  
       2017-01-18 15:11:17 +08:00   1
    @jiangzhuo 火车头都不用写正则。。。连我这种野路子都会用
    GrahamCloud
        53
    GrahamCloud  
    OP
       2017-01-18 15:32:26 +08:00
    @jiangzhuo 我们现在也是这个初心,希望不会编程的能够迅速上手。
    GrahamCloud
        54
    GrahamCloud  
    OP
       2017-01-18 15:32:47 +08:00
    @siknet 您这边一般采集什么数据,看看能不能帮上啥
    Hansah
        55
    Hansah  
       2017-01-18 15:40:57 +08:00   1
    @GrahamCloud 主要还是不规则页面,火车头琢磨下应该能搞定,只是最近在忙别的没空弄。
    zaoshu 对不规则页面比较吃力吧?我用过一会,个人愚见,非找茬。

    这两个页面应该算不规则页面,我拿火车头没搞定

    http://cn163.net/archives/24280/

    http://videos.yizhansou.com/4342
    GrahamCloud
        56
    GrahamCloud  
    OP
       2017-01-18 16:55:47 +08:00
    @siknet 超欢迎意见,求加微信 Zaoshuio
    sohoer
        57
    sohoer  
       2017-01-19 13:11:53 +08:00   1
    GrahamCloud
        58
    GrahamCloud  
    OP
       2017-01-19 16:02:51 +08:00
    @sohoer 求加微信求加微信! Zaoshuio
    Limius
        59
    Limius  
       2017-01-19 17:04:26 +08:00   1
    居然没有童鞋说到爬人行征信、各种电商网站里订单数据、送货地址(在已登录的前提下)这种数据,这很赚钱的啊。。。

    P2P 金融互联网产品狗爬过。。。
    GrahamCloud
        60
    GrahamCloud  
    OP
       2017-01-19 18:38:40 +08:00
    @Limius 这个很对啊
    td width="auto" valign="top" align="left">
        61
    bzzhou  
       2017-01-20 13:42:41 +08:00   1
    太慢了
    基于渲染的方式来抓取,玩玩小规模数据还可以,大规模抓取要消耗的资源可不是一般人可以承受的(当然,这种情况一般都可以定制了)。

    从目前了解,如果纯粹是为了降低抓取门槛,八爪、火车头等一堆方案;如果是满足大规模的采集需求,这种一般都是定制开发。
    bzzhou
    GrahamCloud
        62
    GrahamCloud  
    OP
       2017-01-20 14:42:05 +08:00
    @bzzhou 现在这版问题确实多,年后会进一步迭代。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2611 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 12:42 PVG 20:42 LAX 05:42 JFK 08:42
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86