抓取拉勾网的招聘信息并用图表进行展示,欢迎各路大神提出意见 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ioiogoo
V2EX    Python

抓取拉勾网的招聘信息并用图表进行展示,欢迎各路大神提出意见

  •  2
     
  •   ioiogoo 2016-08-31 20:15:59 +08:00 4359 次点击
    这是一个创建于 3336 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前段时间一直也没什么事,所以做了这么一个小项目,爬取了拉勾网八万多的招聘信息(2016.8.16 号左右),并将其按照城市、职业、薪资水平分类展示,并可以点击查看任意小分类下具体职位信息,网站还有很多东西需要完善,所以还请大家提点意见。在线 demo : 互联网行业招聘需求分析,图表信息是可以点击的哦。

    招聘信息来源

    • 用 scrapy 爬取拉勾网的招聘信息,涉及 226 座城市、 152 种职业类型的共 87161 个招聘信息
    • 数据存储在 mysql 数据库
    • 项目地址:Lagou_spider

    部署方式

    网站搭建在小水管上,所以打开速度不是很快,见谅

    • 采用 nginx + gunicorn + flask 的方式

    前端展示

    由于本人渣渣前端,所以展示效果已经尽力。点击具体图表可以进入具体模块的详细信息

    TODO

    • 专门针对 Python 做一份详细的分析图表
    • About Me 页面

    希望各路大神走过路过看一看,提点意见,谢谢

    16 条回复    2016-09-01 21:12:58 +08:00
    JadeV
        1
    JadeV  
       2016-08-31 20:28:48 +08:00
    话说我之前也爬过。。然后因为某些原因项目搁置就 GG 了= =
    north521
        2
    north521  
       2016-08-31 21:57:39 +08:00
    支持一个,拉钩有个接口直接返回 json ,很是良心,省去了解析 html 的工作,但是我还是忍不住说一点,拉钩的工资,太特么虚了,跟实际对不上
    wangtuyi
        3
    wangtuyi  
       2016-08-31 22:11:48 +08:00
    sunyaxiongnn
        4
    sunyaxiongnn  
       2016-08-31 22:12:39 +08:00
    正在学习爬虫,观摩下代码,更要学习楼主的动手精神
    ioiogoo
        5
    ioiogoo  
    OP
       2016-08-31 22:50:28 +08:00
    @wangtuyi 感谢指正,因为之前调整了下排版,有些细节地方忘了修改
    ioiogoo
        6
    ioiogoo  
    OP
       2016-08-31 23:00:05 +08:00
    @li24361 对的,我也是直接返回 json 的,具体可以看我的爬虫代码,但是基本上很快的时间就能封掉一个 ip ,所以我还写了一个免费代理的爬虫项目。另外拉勾上的工资一般都是取下限的,虚高很正常,互联网行业本身就有很多泡沫
    katos
        7
    katos  
       2016-09-01 01:10:41 +08:00
    赞一个
    Tom008
        8
    Tom008  
       2016-09-01 10:25:49 +08:00
    java 工作量是 c++的 5 倍左右 !这尼玛
    tntC4stl3
        9
    tntC4stl3  
       2016-09-01 10:50:46 +08:00
    @li24361 所以我觉得一般先问,给不给得到 xx ,不然不用继续了。
    luofei23
        10
    luofei23  
       2016-09-01 11:53:28 +08:00
    很厉害!因为最近我也想用拉勾网练习爬虫技术。没想到您已经做的这么完善了。请问一下如果做成这一个项目,爬虫,数据处理,前端页面,然后以这个项目去求职可行吗??最近转行中,感觉没有能拿出手的项目。谢谢。
    ioiogoo
        11
    ioiogoo  
    OP
       2016-09-01 16:26:45 +08:00   1
    @luofei23 应该是可以拿去求职的吧,我不太清楚,但是这个说实话也没太多的技术含量,自己玩玩还可以。如果你要做一个求职的项目的话,专注一个方向,前端就前端,后端就后端,一个方向深入下去可能好点
    ioiogoo
        12
    ioiogoo  
    OP
       2016-09-01 16:27:44 +08:00
    @katos 感谢
    gzxultra
        13
    gzxultra  
       2016-09-01 18:01:48 +08:00
    看文件结构一点都没看出来是 flask...话说 pyc 不要加到版本控制里啊....
    ioiogoo
        14
    ioiogoo  
    OP
       2016-09-01 20:17:23 +08:00
    @gzxultra flask 用 blueprint ,结构不就是这样的吗?还有,额,版本控制里本来就没有 pyc 啊,看错了?
    gzxultra
        15
    gzxultra  
       2016-09-01 20:53:03 +08:00
    @ioiogoo 抱歉看的 Lagou_spider
    tikazyq
        16
    tikazyq  
       2016-09-01 21:12:58 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3287 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 11:48 PVG 19:48 LAX 04:48 JFK 07:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86