xspider 爬虫小框架,专注策略实现爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
intohole
V2EX    程序员

xspider 爬虫小框架,专注策略实现爬虫

  •  
  •   intohole 2018-06-13 13:48:39 +08:00 3573 次点击
    这是一个创建于 2677 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/intohole/xspider

    1. 本地磁盘队列,对各位只有单机,存储内存 cpu 不大的情况实现
    2. 针对不同链接 pattern,使用不同解析器;
    3. 结合 bloomfilter 过滤神器,达到减少内存占用
    4. 整个抽取器,json /正则/ xpath / css selector 等,还在构造中
    5. 对整个抓取流程结构化

    现在不足点:

    1. 数据库存储问题
    2. 对抓取失败后,处理策略优化;
    3. 无可视化页面,对整个爬虫架构完善
    4. 无可自动抽取元素

    爬虫架构本人在使用,写一些定制化的爬虫,期待你的建议~

    不喜勿喷,可以略过~谢谢

    12 条回复    2018-06-13 20:39:05 +08:00
    glacer
        1
    glacer  
       2018-06-13 14:03:27 +08:00
    mark
    ihancheng
        2
    ihancheng  
       2018-06-13 14:13:56 +08:00 via Android
    战马
    cheesea
        3
    cheesea  
       2018-06-13 17:07:02 +08:00
    我想问一下,楼主这个框架,对比 scrapy/pyspider 有什么区别,或者说解决了什么问题?
    itsme001
        4
    itsme001  
       2018-06-13 18:02:42 +08:00
    看到请求用的 requests 就停了.requests 默认的有些 http 头都是去不掉的.会被 requests 使用的下层库(urllib?httplib?)添加上去.玩具成熟点再发吧.
    golmic
        5
    golmic  
       2018-06-13 18:09:01 +08:00
    我还没看到 4L 那,只看到了
    1. 抓取单线程
    2. from xspider.spider.spider
    就不打算继续看了
    Leigg
        6
    Leigg  
       2018-06-13 18:16:03 +08:00 via iPhone
    有想法,不过最好有鲜明的优势,相较于 scrapy,pyspider 这些框架,不用把他们实现的你都实现,不然就是造轮子了。
    总体建议是: 整体构思好再出发比较好,这是一个很锻炼 coding,架构能力的事情,还是支持楼主。
    intohole
        7
    intohole  
    OP
       2018-06-13 18:35:55 +08:00
    楼上们,没用你怎么知道不好呢? 好奇? 看到 requests 就停止了~
    intohole
        8
    intohole  
    OP
       2018-06-13 18:36:21 +08:00
    @cheesea 机器资源紧张,需要设计一些策略问题
    intohole
        9
    intohole  
    OP
       2018-06-13 18:36:56 +08:00
    @Leigg 这个有架构的~,这是我自己一些爬虫工具,磨练出来的
    gouchaoer2
        10
    gouchaoer2  
       2018-06-13 19:26:49 +08:00 via Android
    你可能不需要队列,mysql 足够
    你可能不需要 bloomfilter,unique 索引足够
    可能你不需要优化性能,因为爬虫就不是个 cpu/内存消耗的东西
    xiangbohua
        11
    xiangbohua  
       2018-06-13 19:51:45 +08:00
    @gouchaoer2 网络请求、放反扒应该占用大多数时间吧
    intohole
        12
    intohole  
    OP
       2018-06-13 20:39:05 +08:00
    @gouchaoer2 其实什么都不用做 , 直接用 requests 就可以
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5221 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 09:24 PVG 17:24 LAX 02:24 JFK 05:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86