自己写的 python 爬虫,开源出来 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wangfengmadking

自己写的 python 爬虫,开源出来

  •  
  •   wangfengmadking
    hezila 2014 年 2 月 21 日 9565 次点击
    这是一个创建于 4441 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前段时间把自己写的爬虫程序整理了一下,希望能构建一个简单易用的爬虫框架。现在已经有了基本框架. 采用的是requests + beautifulsoup。

    现在的代码量还比较少,都是一些基本功能。就是把request和bf封装了一下。

    https://github.com/numb3r3/crawler-python
    21 条回复    1970-01-01 08:00:00 +08:00
    gaicitadie
        1
    gaicitadie  
       2014 年 2 月 21 日   1
    beautifulsoup跟pyquery有哪些区别?相对于pyquery有何优势?请有经验的大神讲讲
    wangfengmadking
        2
    wangfengmadking  
    OP
       2014 年 2 月 21 日
    @gaicitadie 根据我的经验,pyquey基于lxml,比bf解析效率要高。本来我想直接用lxml的,但是由于比较赶,只能先用bf解析了。如果对jquery比较熟悉的话,那么可以直接可以使用pyquey来解析html
    pythoncc
        3
    pythoncc  
       2014 年 2 月 21 日
    收藏、学习。。。
    wuyadong
        4
    wuyadong  
       2014 年 2 月 21 日
    zhwei
        5
    zhwei  
       2014 年 2 月 21 日
    上周pycoder weekly推荐的一个项目 https://github.com/jmcarp/robobrowser

    也是封装了requests和 beautifulsoup, 可以试着添加写独到的功能。
    FrankFang128
        6
    FrankFang128  
       2014 年 2 月 21 日 via Android
    爬虫很有用吗?为什么这么多人写
    zhwei
        7
    zhwei  
       2014 年 2 月 21 日
    @FrankFang128 简化查询、聚合信息、懒人必备。
    jason52
        8
    jason52  
       2014 年 2 月 21 日
    @gaicitadie 你要回jquery的话,强烈推荐pyquery,class选择器方便程度是bs不能比的。我误打误撞学了一下jquery,结果最有用的竟然是在爬虫的时候用上了pyquery
    qianlifeng
        9
    qianlifeng  
       2014 年 2 月 21 日
    bs4不是也可以使用jquery选择器语法查询的么
    alexapollo
        10
    alexapollo  
       2014 年 2 月 21 日
    Scrapy?
    carlhan
        11
    carlhan  
       2014 年 2 月 21 日   1
    README.md 里面的 单词framework 写错了

    嘿嘿
    RIcter
        12
    RIcter  
       2014 年 2 月 21 日
    @FrankFang128 我不会说过刚刚学py的时候,我写过爬h网关键词的..因为我是妹控哈哈哈!
    mongodb
        13
    mongodb  
       2014 年 2 月 21 日
    感觉python天生是为了写爬虫和代理而创造的语言= =
    FrankFang128
        14
    FrankFang128  
       2014 年 2 月 21 日
    @RIcter 听你这么一说,就感觉有用了
    pandada8
        15
    pandada8  
       2014 年 2 月 21 日 via Android
    @wangfengmadking beautifulsoup也可以指定使用lxml,只要在初始化的时候指定类型为lxml的就行了 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

    @qianlifeng 文档里有写?


    pyquery没办法链式调用……残念……
    paulw54jrn
        16
    paulw54jrn  
       2014 年 2 月 22 日
    @pandada8 补充下..beautifulsoup要4.0+版才能支持lxml
    fork3rt
        17
    fork3rt  
       2014 年 2 月 22 日
    pyquery没beautifulsoup 强大 - -# 我最近也在写爬虫
    pandada8
        18
    pandada8  
       2014 年 2 月 23 日
    @paulw54jrn 嘛,新代码基本都用的bs4吧……
    qianlifeng
        19
    qianlifeng  
       2014 年 2 月 23 日
    blond
        20
    blond  
       2014 年 2 月 24 日
    @wangfengmadking那pyquery和lxml哪个快呢
    wangfengmadking
        21
    wangfengmadking  
    OP
       2014 年 2 月 24 日
    @blond lxml要比pyquery快很多
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     932 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 53ms UTC 21:26 PVG 05:26 LAX 14:26 JFK 17:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86