为什么诸位老哥的爬虫的都是自己写的,不用 scrapy 呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wellhome
V2EX    问与答

为什么诸位老哥的爬虫的都是自己写的,不用 scrapy 呢?

  •  
  •   wellhome 2019-09-18 08:23:23 +08:00 5812 次点击
    这是一个创建于 2229 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。

    26 条回复    2019-09-18 17:11:26 +08:00
    forgottencoast
        1
    forgottencoast  
       2019-09-18 08:26:59 +08:00 via iPhone
    标题和内容冲突啊?
    sanjusss
        2
    sanjusss  
       2019-09-18 08:28:05 +08:00
    我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。
    gimp
        3
    gimp  
       2019-09-18 08:32:37 +08:00
    设问句?
    nevin47
        4
    nevin47  
       2019-09-18 08:33:31 +08:00 via Android
    我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了
    sadfQED2
        5
    sadfQED2  
       2019-09-18 08:37:31 +08:00 via Android
    你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便
    anteros
        6
    anteros  
       2019-09-18 08:40:20 +08:00
    先问是不是,再问为什么。
    yinjy
        7
    yinjy   div class="badges">   2019-09-18 08:40:29 +08:00
    小项目也是 scrapy 方便啊,基础代码不用自己写
    qsnow6
        8
    qsnow6  
       2019-09-18 08:45:36 +08:00 via iPhone
    如何定义小规模
    patx
        9
    patx  
       2019-09-18 08:49:07 +08:00 via Android
    nodejs 写爬虫
    killerv
        10
    killerv  
       2019-09-18 09:02:16 +08:00   1
    简单的用 requests,
    稍微上点规模的就用框架了,自己造轮子多麻烦
    zackwu
        11
    zackwu  
       2019-09-18 09:08:26 +08:00   1
    因为直接用 requests 已经可以满足大部分需求了,而且简单快捷
    ljspython
        12
    ljspython  
       2019-09-18 09:25:39 +08:00
    requests 已满足基本小需求了
    bonfy
        13
    bonfy  
       2019-09-18 09:28:01 +08:00
    requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么?
    tozp
        14
    tozp  
       2019-09-18 09:39:01 +08:00
    我只用 Go
    wellhome
        15
    wellhome  
    OP
       2019-09-18 09:42:26 +08:00
    @gimp 好多人推崇, 但是老哥们开的项目都是自己写的, 所以矛盾, 不知道是不是自己的打开方式不对。
    ClarkAbe
        16
    ClarkAbe  
       2019-09-18 09:49:24 +08:00 via Android
    @tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖
    fank99
        17
    fank99  
       2019-09-18 09:57:46 +08:00
    写到最后。。你会发现你写的东西越来越像“scrapy”
    这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢
    coolair
        18
    coolair  
       2019-09-18 10:01:32 +08:00
    看文档的时间已经写好了。
    alphardex
        19
    alphardex  
       2019-09-18 10:08:56 +08:00 via iPhone
    自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter
    zqjilove
        20
    zqjilove  
       2019-09-18 10:48:54 +08:00
    如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以
    chengxiao
        21
    chengxiao  
       2019-09-18 10:52:01 +08:00
    小规模用 scrapy 才快吧......几句业务 就 ok 了
    BooksE
        22
    BooksE  
       2019-09-18 10:59:09 +08:00
    我十几个站都用 scrapy 爬的。。scrapy 很好用
    WuMingyu
        23
    WuMingyu  
       2019-09-18 11:07:50 +08:00
    可以写个 scrapy 的模版,用的时候 copy 下,再改改一些业务代码
    ClericPy
        24
    ClericPy  
       2019-09-18 11:22:35 +08:00
    自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去
    d5
        25
    d5  
       2019-09-18 12:15:06 +08:00
    小折腾用 requests + pyquery 梭哈
    niknik
        26
    niknik  
       2019-09-18 17:11:26 +08:00
    emmm,就我目前的站点数据,都用不上 scrapy。。。。直接脚本了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2551 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 05:35 PVG 13:35 LAX 22:35 JFK 01:35
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86