
我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。
1 forgottencoast 2019-09-18 08:26:59 +08:00 via iPhone 标题和内容冲突啊? |
2 sanjusss 2019-09-18 08:28:05 +08:00 我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。 |
3 gimp 2019-09-18 08:32:37 +08:00 设问句? |
4 nevin47 2019-09-18 08:33:31 +08:00 via Android 我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了 |
5 sadfQED2 2019-09-18 08:37:31 +08:00 via Android 你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便 |
6 anteros 2019-09-18 08:40:20 +08:00 先问是不是,再问为什么。 |
7 yinjy div class="badges"> 2019-09-18 08:40:29 +08:00 小项目也是 scrapy 方便啊,基础代码不用自己写 |
8 qsnow6 2019-09-18 08:45:36 +08:00 via iPhone 如何定义小规模 |
9 patx 2019-09-18 08:49:07 +08:00 via Android nodejs 写爬虫 |
10 killerv 2019-09-18 09:02:16 +08:00 简单的用 requests, 稍微上点规模的就用框架了,自己造轮子多麻烦 |
11 zackwu 2019-09-18 09:08:26 +08:00 因为直接用 requests 已经可以满足大部分需求了,而且简单快捷 |
12 ljspython 2019-09-18 09:25:39 +08:00 requests 已满足基本小需求了 |
13 bonfy 2019-09-18 09:28:01 +08:00 requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么? |
14 tozp 2019-09-18 09:39:01 +08:00 我只用 Go |
16 ClarkAbe 2019-09-18 09:49:24 +08:00 via Android @tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖 |
17 fank99 2019-09-18 09:57:46 +08:00 写到最后。。你会发现你写的东西越来越像“scrapy” 这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢 |
18 coolair 2019-09-18 10:01:32 +08:00 看文档的时间已经写好了。 |
19 alphardex 2019-09-18 10:08:56 +08:00 via iPhone 自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter |
20 zqjilove 2019-09-18 10:48:54 +08:00 如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以 |
21 chengxiao 2019-09-18 10:52:01 +08:00 小规模用 scrapy 才快吧......几句业务 就 ok 了 |
22 BooksE 2019-09-18 10:59:09 +08:00 我十几个站都用 scrapy 爬的。。scrapy 很好用 |
23 WuMingyu 2019-09-18 11:07:50 +08:00 可以写个 scrapy 的模版,用的时候 copy 下,再改改一些业务代码 |
24 ClericPy 2019-09-18 11:22:35 +08:00 自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去 |
25 d5 2019-09-18 12:15:06 +08:00 小折腾用 requests + pyquery 梭哈 |
26 niknik 2019-09-18 17:11:26 +08:00 emmm,就我目前的站点数据,都用不上 scrapy。。。。直接脚本了 |