最近在学python,没事写了个小爬虫来统计了下招聘贴的消息。
共统计了招聘贴前60页,约最近200天,共1200个主题。
代码:
只取了标题,所以有些招聘信息不在标题的没有统计进来。
标题经过哑巴分词再计入数据库,后面的数字为在标题中出现的次数。
地名根据搜狗全国地名词库统计。
工作地区不完全排行榜:
1.北京 304 + 帝都 21 = 325
2.上海 220
3.杭州 85
4.深圳 79
5.广州 51
6.成都 29
7.武汉 19
8.南京 16
9.苏州 8
10.长沙 7
11.珠海 5
12.西安 4
技术名词都是我手动查找的,可能不全,但大致就这样了。
技术名词不完全排行榜:
1.前端 165 + 前端开发 52 = 217
2.php 151 + PHPer 11 = 162
3.android 145
4.ios 144
5.web 104
6.python 94
7.java 72
8.UI 69
9.c++ 23
10.测试 20
11.Linux 19
12.Ruby 18
13.后端 15
14.Node.js 14
15.DBA 10
16.Javascript 9
17.html5 9
可以看到一般公司集中在北京上海,再就是明显前端需求旺盛啊。。
共统计了招聘贴前60页,约最近200天,共1200个主题。
代码:
只取了标题,所以有些招聘信息不在标题的没有统计进来。
标题经过哑巴分词再计入数据库,后面的数字为在标题中出现的次数。
地名根据搜狗全国地名词库统计。
工作地区不完全排行榜:
1.北京 304 + 帝都 21 = 325
2.上海 220
3.杭州 85
4.深圳 79
5.广州 51
6.成都 29
7.武汉 19
8.南京 16
9.苏州 8
10.长沙 7
11.珠海 5
12.西安 4
技术名词都是我手动查找的,可能不全,但大致就这样了。
技术名词不完全排行榜:
1.前端 165 + 前端开发 52 = 217
2.php 151 + PHPer 11 = 162
3.android 145
4.ios 144
5.web 104
6.python 94
7.java 72
8.UI 69
9.c++ 23
10.测试 20
11.Linux 19
12.Ruby 18
13.后端 15
14.Node.js 14
15.DBA 10
16.Javascript 9
17.html5 9
可以看到一般公司集中在北京上海,再就是明显前端需求旺盛啊。。
