大家用 python 都做过什么有趣的爬虫吗?分享分享呗!
![]() | 2 bdbai 2015-09-10 19:43:55 +08:00 via iPhone 爱鼠绘漫画 PHP 和 C#(跑 |
![]() | 3 anying 2015-09-10 19:45:07 +08:00 ![]() 然而好多都是用来爬妹子图的 ![]() |
![]() | 4 uuspider 2015-09-10 19:57:22 +08:00 这是从知乎上看来的题目吧,知乎的答案还是比较丰富的。 |
5 tooweakchen OP @anying 我就是 |
![]() | 6 weifengzi2009 2015-09-10 20:49:56 +08:00 ![]() 爬过学校的课表,排课用 |
7 tooweakchen OP @weifengzi2009 有源码看看不 |
8 giskard 2015-09-10 21:18:59 +08:00 豆瓣租房小组,爬最新帖子,不算有趣吧,但还有点用。 |
9 masol 2015-09-10 21:49:58 +08:00 爬过一个网站的所有图片。。 |
![]() | 10 qw7692336 2015-09-10 21:50:30 +08:00 via Android |
![]() | 11 shoumu 2015-09-10 21:57:53 +08:00 这里的很多人都喜欢爬妹子图 |
![]() | 12 xunyu 2015-09-10 22:07:12 +08:00 via Android 爬猎聘, linkedin |
![]() | 13 weifengzi2009 2015-09-11 00:23:14 +08:00 |
![]() | 14 coldear 2015-09-11 01:25:26 +08:00 爬过网络连载小说转成 txt 在 kindle 看。。 爬过一个盗版技术书籍的网站。。 |
![]() | 15 dai269619118 2015-09-11 09:02:55 +08:00 http://jinri.info 都是爬来的信息 |
![]() | 16 leyle 2015-09-11 09:05:14 +08:00 via Android 喜欢看 1024 的技术区,但是没法按发帖时间排序,写了个抓取帖子回来再按发帖时间排。 |
![]() | 17 takashiki 2015-09-11 09:23:30 +08:00 豆瓣爬日剧动画啥的,然后按评分排序选择性补番 |
18 paw 2015-09-11 09:59:53 +08:00 爬漫画,按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画 |
![]() | 19 nicksite 2015-09-11 10:05:14 +08:00 礼物说的 专题和商品 小代码搞定。 https://github.com/henryluki/simpleparse/blob/master/liwushuo.py |
![]() | 20 mckelvin 2015-09-11 10:16:18 +08:00 via iPhone ![]() 爬 91porn 视频 :) |
![]() | 21 leavic 2015-09-11 10:54:00 +08:00 爬 javbus 上的 av 封面 |
22 codeforlife 2015-09-11 11:04:16 +08:00 我爬的一个 xx 论坛的某个专区,每次种子更新了自动下载。。 |
23 sinosure 2015-09-11 11:13:09 +08:00 把感兴趣的公众号的当天更新爬到一个 feed 里面算么 |
26 lxy 2015-09-11 11:36:30 +08:00 爬某网站数据,做数据分析后发现一些不可告人的秘密,公布出来后成功引发一场论战…… 还有就是一些网站不慎泄露的用户数据,密码、邮箱之类的。 |
![]() | 27 imn1 2015-09-11 12:13:58 +08:00 爬北都集团 |
![]() | 28 sun2920989 2015-09-11 13:54:36 +08:00 PHP 简单写了个最简易的 爬美女图。。。。 |
![]() | 29 fish267 2015-09-11 14:06:56 +08:00 |
![]() | 31 Aresn 2015-09-11 15:43:39 +08:00 第一次写爬虫,把一个竞聘的所有文章( 10 万+)全部爬来了,不知道这数据都是几手的了。。 |
![]() | 32 bullettrain1433 2015-09-11 15:56:40 +08:00 @codeforlife 求共享 |
34 truehyp 2015-09-11 16:08:56 +08:00 爬过学校图书馆自己借阅过的书。噢,主要是为了可以无限续借书,顺带爬了书单。 |
![]() | 35 zhouquanbest 2015-09-11 16:17:30 +08:00 1024 的算么 |
36 fakir 2015-09-11 16:43:54 +08:00 把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息, 结果发现拉钩数据存在造假呀 |
38 sinosure 2015-09-11 17:12:08 +08:00 |
![]() | 41 rwecho 2015-09-11 17:31:51 +08:00 @zhouquanbest 求分享。 |
![]() | 44 loryyang 2015-09-11 17:51:56 +08:00 挂个 VPN 爬妹子图。。。后来觉得太蠢了,废弃了 |
45 ma7x 2015-09-11 17:58:18 +08:00 试过爬一个填单类型的网站 想做的功能是 填写表单 后来没弄出来 改用 chrome 插件了 |
![]() | 46 xmmak 2015-09-11 18:00:23 +08:00 爬了 Google Play |
47 codeforlife 2015-09-11 18:10:37 +08:00 @bullettrain1433 https://github.com/winniesi/getsis 昨晚临下班写的。。很乱凑活着看 |
![]() | 48 jseanj 2015-09-11 18:11:25 +08:00 爬 v2 所有用户的 blog 地址 |
![]() | 51 laoyuan 2015-09-11 18:40:43 +08:00 山东大学自习室空堂表,包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼 http://d9book.com/sdu/ |
52 androidwdmzzc 2015-09-11 19:12:44 +08:00 @Reed 哈哈! 我觉得这个爬虫,只会让 LZ 更想剁手 |
![]() | 54 yield9tk 2015-09-11 21:07:36 +08:00 抓取电影天堂的电影下载链接 |
![]() | 55 LancerComet 2015-09-11 21:21:26 +08:00 不会 Python ,不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫,自己下资源用,页面用 Angular + Material-Angular 搭的,请脑补感受一下连指令都不会写、一股脑控制器的入门代码,一直想改掉,不过刚看一眼就没动力了… |
![]() | 57 bullettrain1433 2015-09-11 21:30:53 +08:00 @codeforlife 感谢 |
![]() | 58 pmispig 2015-09-12 00:07:37 +08:00 爬了 2 新浪美女图 3W 张,豆瓣美腿大赛 2000 张。 给豆瓣友邻点赞,小伙伴一觉起来发现多了几千个赞,吓哭了~ |
![]() | 59 JensenChen 2015-09-12 00:17:08 +08:00 @laoyuan 你这个是抓全校全周的课表,然后对教室进行的分析?? |
61 wd0g 2015-09-12 03:20:10 +08:00 ![]() 爬了 1024 所有的账户,然并卵还是没扫到能登录的 |
![]() | 63 laoyuan 2015-09-12 05:06:45 +08:00 |
64 WhiteSaber 2015-09-12 08:44:51 +08:00 @codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差 |
![]() | 65 bigzhu 2015-09-12 09:35:58 +08:00 我做了自已用的 http://follow.center/ 算不算? 整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫 不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了 |
![]() | 66 Felldeadbird 2015-09-12 09:42:25 +08:00 via iPhone 我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。 |
67 bbking 2015-09-12 12:27:59 +08:00 爬 58 |
![]() | 68 alexapollo 2015-09-12 12:32:28 +08:00 前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler |
69 luago 2015-09-12 16:25:43 +08:00 我想知道上面爬图的朋友,图片后来怎么处理了 :) |
![]() | 70 ljbha007 2015-09-12 17:02:54 +08:00 爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个 但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子) |
![]() | 71 davidlau 2015-09-12 17:07:40 +08:00 |
![]() | 72 sohoer 2015-09-12 18:06:36 +08:00 |
![]() | 73 csx163 2015-09-12 18:49:18 +08:00 爬种子,发行并没什么*用 |
![]() | 74 csx163 2015-09-12 18:49:25 +08:00 爬种子,发现并没什么*用 |
75 ultimate010 2015-09-12 19:21:28 +08:00 实习时候用 20+台丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽 |
![]() | 76 vivalon 2015-09-12 19:23:41 +08:00 撸过下厨房的菜单 |
77 giuem 2015-09-12 19:44:10 +08:00 via Android @ultimate010 这数据占多少存储空间 |
![]() | 83 erik0 2015-09-13 11:08:30 +08:00 太可怕了,这么多爬虫,起了一身鸡皮疙瘩~~ |
86 ultimate010 2015-09-13 18:41:52 +08:00 via Android @giuem 压缩了很少,倒入 mysql 后好像几十 G, 可接受. |
87 HavenShen 2015-09-14 11:14:25 +08:00 爬过携程旅游网。 |
88 v2nu 2015-09-14 12:43:35 +08:00 @dai269619118 看起来不错呀 |
![]() | 89 dai269619118 2015-09-14 15:20:44 +08:00 @v2nu 嘿嘿 |
![]() | 90 onlyxuyang 2015-09-15 20:32:00 +08:00 via Android 爬 beautyleg ……爬绅士漫画…… |
92 leetao102 2015-09-30 00:41:25 +08:00 @codeforlife 不错。。。 |
![]() | 94 ns2250225 2015-10-15 17:16:34 +08:00 爬过多玩的搞笑 gif 图库 |
95 yongjiu236z 2016-12-11 01:05:06 +08:00 |
96 yongjiu236z 2016-12-15 00:57:34 +08:00 |
97 ntuwang 2018-09-24 18:42:28 +08:00 mark |