https://github.com/intohole/xspider
现在不足点:
爬虫架构本人在使用,写一些定制化的爬虫,期待你的建议~
不喜勿喷,可以略过~谢谢
1 glacer 2018-06-13 14:03:27 +08:00 mark |
2 ihancheng 2018-06-13 14:13:56 +08:00 via Android 战马 |
3 cheesea 2018-06-13 17:07:02 +08:00 我想问一下,楼主这个框架,对比 scrapy/pyspider 有什么区别,或者说解决了什么问题? |
4 itsme001 2018-06-13 18:02:42 +08:00 看到请求用的 requests 就停了.requests 默认的有些 http 头都是去不掉的.会被 requests 使用的下层库(urllib?httplib?)添加上去.玩具成熟点再发吧. |
5 golmic 2018-06-13 18:09:01 +08:00 我还没看到 4L 那,只看到了 1. 抓取单线程 2. from xspider.spider.spider 就不打算继续看了 |
![]() | 6 Leigg 2018-06-13 18:16:03 +08:00 via iPhone 有想法,不过最好有鲜明的优势,相较于 scrapy,pyspider 这些框架,不用把他们实现的你都实现,不然就是造轮子了。 总体建议是: 整体构思好再出发比较好,这是一个很锻炼 coding,架构能力的事情,还是支持楼主。 |
![]() | 7 intohole OP 楼上们,没用你怎么知道不好呢? 好奇? 看到 requests 就停止了~ |
10 gouchaoer2 2018-06-13 19:26:49 +08:00 via Android 你可能不需要队列,mysql 足够 你可能不需要 bloomfilter,unique 索引足够 可能你不需要优化性能,因为爬虫就不是个 cpu/内存消耗的东西 |
![]() | 11 xiangbohua 2018-06-13 19:51:45 +08:00 @gouchaoer2 网络请求、放反扒应该占用大多数时间吧 |
![]() | 12 intohole OP @gouchaoer2 其实什么都不用做 , 直接用 requests 就可以 |