大家用 python 都做过什么有趣的爬虫吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
tooweakchen
V2EX    Python

大家用 python 都做过什么有趣的爬虫吗?

  •  
  •   tooweakchen 2015-09-10 19:31:03 +08:00 26666 次点击
    这是一个创建于 3683 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家用 python 都做过什么有趣的爬虫吗?分享分享呗!

    97 条回复    2018-09-24 18:42:28 +08:00
    Reed
        1
    Reed  
       2015-09-10 19:35:58 +08:00
    每天到 smzdm.com 上爬当天更新的便宜货算么?
    But ,买了几个之后,一点不有趣
    bdbai
        2
    bdbai  
       2015-09-10 19:43:55 +08:00 via iPhone
    爱鼠绘漫画 PHP 和 C#(跑
    anying
        3
    anying  
       2015-09-10 19:45:07 +08:00   1
    然而好多都是用来爬妹子图的
    uuspider
        4
    uuspider  
       2015-09-10 19:57:22 +08:00
    这是从知乎上看来的题目吧,知乎的答案还是比较丰富的。
    tooweakchen
        5
    tooweakchen  
    OP
       2015-09-10 20:46:24 +08:00
    @anying 我就是
    weifengzi2009
        6
    weifengzi2009  
       2015-09-10 20:49:56 +08:00   1
    爬过学校的课表,排课用
    tooweakchen
        7
    tooweakchen  
    OP
       2015-09-10 20:57:18 +08:00
    @weifengzi2009 有源码看看不
    giskard
        8
    giskard  
       2015-09-10 21:18:59 +08:00
    豆瓣租房小组,爬最新帖子,不算有趣吧,但还有点用。
    masol
        9
    masol  
       2015-09-10 21:49:58 +08:00
    爬过一个网站的所有图片。。
    qw7692336
        10
    qw7692336  
       2015-09-10 21:50:30 +08:00 via Android
    shoumu
        11
    shoumu  
       2015-09-10 21:57:53 +08:00
    这里的很多人都喜欢爬妹子图
    xunyu
        12
    xunyu  
       2015-09-10 22:07:12 +08:00 via Android
    爬猎聘, linkedin
    weifengzi2009
        13
    weifengzi2009  
       2015-09-11 00:23:14 +08:00
    @tooweakchen 有,你可以去看我的 github ,那个 repo 叫 NTUCoursePlanner 貌似

    我的 github 可以在我 v2 的个人资料页找到
    coldear
        14
    coldear  
       2015-09-11 01:25:26 +08:00
    爬过网络连载小说转成 txt 在 kindle 看。。
    爬过一个盗版技术书籍的网站。。
    dai269619118
        15
    dai269619118  
       2015-09-11 09:02:55 +08:00
    http://jinri.info 都是爬来的信息
    leyle
        16
    leyle  
       2015-09-11 09:05:14 +08:00 via Android
    喜欢看 1024 的技术区,但是没法按发帖时间排序,写了个抓取帖子回来再按发帖时间排。
    takashiki
        17
    takashiki  
       2015-09-11 09:23:30 +08:00
    豆瓣爬日剧动画啥的,然后按评分排序选择性补番
    paw
        18
    paw  
       2015-09-11 09:59:53 +08:00
    爬漫画,按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画
    nicksite
        19
    nicksite  
       2015-09-11 10:05:14 +08:00
    礼物说的 专题和商品 小代码搞定。 https://github.com/henryluki/simpleparse/blob/master/liwushuo.py
    mckelvin
        20
    mckelvin  
       2015-09-11 10:16:18 +08:00 via iPhone   3
    爬 91porn 视频 :)
    leavic
        21
    leavic  
       2015-09-11 10:54:00 +08:00
    爬 javbus 上的 av 封面
    codeforlife
        22
    codeforlife  
       2015-09-11 11:04:16 +08:00
    我爬的一个 xx 论坛的某个专区,每次种子更新了自动下载。。
    sinosure
        23
    sinosure  
       2015-09-11 11:13:09 +08:00
    把感兴趣的公众号的当天更新爬到一个 feed 里面算么
    liaa
        24
    liaa  
       2015-09-11 11:20:45 +08:00
    @mckelvin so...Where is the code.
    ljdawn
        25
    ljdawn  
       2015-09-11 11:26:49 +08:00
    @liaa so...Where is the url.
    lxy
        26
    lxy  
       2015-09-11 11:36:30 +08:00
    爬某网站数据,做数据分析后发现一些不可告人的秘密,公布出来后成功引发一场论战……
    还有就是一些网站不慎泄露的用户数据,密码、邮箱之类的。
    imn1
        27
    imn1  
       2015-09-11 12:13:58 +08:00
    爬北都集团
    sun2920989
        28
    sun2920989  
       2015-09-11 13:54:36 +08:00
    PHP 简单写了个最简易的 爬美女图。。。。
    fish267
        29
    fish267  
       2015-09-11 14:06:56 +08:00
    codercai
        30
    codercai  
       2015-09-11 15:03:24 +08:00
    @mckelvin 哈哈哈,学以致用,求源码
    Aresn
        31
    Aresn  
       2015-09-11 15:43:39 +08:00
    第一次写爬虫,把一个竞聘的所有文章( 10 万+)全部爬来了,不知道这数据都是几手的了。。
    bullettrain1433
        32
    bullettrain1433  
       2015-09-11 15:56:40 +08:00
    @codeforlife 求共享
    iamnuomi
        33
    iamnuomi  
       2015-09-11 16:01:34 +08:00
    @sinosure 这是怎么做的?有代码吗?
    truehyp
        34
    truehyp  
       2015-09-11 16:08:56 +08:00
    爬过学校图书馆自己借阅过的书。噢,主要是为了可以无限续借书,顺带爬了书单。
    zhouquanbest
        35
    zhouquanbest  
       2015-09-11 16:17:30 +08:00
    1024 的算么
    fakir
        36
    fakir  
       2015-09-11 16:43:54 +08:00
    把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息, 结果发现拉钩数据存在造假呀
    BUPTGuo
        37
    BUPTGuo  
       2015-09-11 16:51:10 +08:00
    @sinosure 公众帐号怎么爬?源是哪?
    sinosure
        38
    sinosure  
       2015-09-11 17:12:08 +08:00
    idblife
        39
    idblife  
       2015-09-11 17:28:37 +08:00
    @mckelvin
    求代码
    idblife
        40
    idblife  
       2015-09-11 17:29:34 +08:00
    @fakir
    怎么造假了?另外我觉得拉钩很不靠谱
    rwecho
        41
    rwecho  
       2015-09-11 17:31:51 +08:00
    @zhouquanbest 求分享。
    z7039585
        42
    z7039585  
       2015-09-11 17:34:21 +08:00
    @giskard 握爪 我也写了个。 但是最终还是人工找到了合适的房子 0 0
    z7039585
        43
    z7039585  
       2015-09-11 17:36:06 +08:00
    @idblife 拉钩薪资大部分都是虚高 很多朋友都这样说 我之前也面了一家 实际薪资比拉钩上标的差了不少
    loryyang
        44
    loryyang  
       2015-09-11 17:51:56 +08:00
    挂个 VPN 爬妹子图。。。后来觉得太蠢了,废弃了
    ma7x
        45
    ma7x  
       2015-09-11 17:58:18 +08:00
    试过爬一个填单类型的网站 想做的功能是 填写表单 后来没弄出来 改用 chrome 插件了
    xmmak
        46
    xmmak  
       2015-09-11 18:00:23 +08:00
    爬了 Google Play
    codeforlife
        47
    codeforlife  
       2015-09-11 18:10:37 +08:00
    @bullettrain1433 https://github.com/winniesi/getsis 昨晚临下班写的。。很乱凑活着看
    jseanj
        48
    jseanj  
       2015-09-11 18:11:25 +08:00
    爬 v2 所有用户的 blog 地址
    jseanj
        49
    jseanj  
       2015-09-11 18:12:45 +08:00
    @mckelvin 这个牛逼,贡献下源码?哈哈
    weiyefly
        50
    weiyefly  
       2015-09-11 18:20:54 +08:00
    @xmmak 做游戏植入?
    laoyuan
        51
    laoyuan  
       2015-09-11 18:40:43 +08:00
    山东大学自习室空堂表,包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼
    http://d9book.com/sdu/
    androidwdmzzc
        52
    androidwdmzzc  
       2015-09-11 19:12:44 +08:00
    @Reed 哈哈! 我觉得这个爬虫,只会让 LZ 更想剁手
    MrGba2z
        53
    MrGba2z  
       2015-09-11 21:01:46 +08:00
    @mckelvin
    交出爬 91 的源码我们还能做网友!
    yield9tk
        54
    yield9tk  
       2015-09-11 21:07:36 +08:00
    抓取电影天堂的电影下载链接
    LancerComet
        55
    LancerComet  
       2015-09-11 21:21:26 +08:00
    不会 Python ,不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫,自己下资源用,页面用 Angular + Material-Angular 搭的,请脑补感受一下连指令都不会写、一股脑控制器的入门代码,一直想改掉,不过刚看一眼就没动力了…
    lenran
        56
    lenran  
       2015-09-11 21:28:20 +08:00
    @MrGba2z 搜了下'91porn',你们也太重口了%>_<%
    bullettrain1433
        57
    bullettrain1433  
       2015-09-11 21:30:53 +08:00
    @codeforlife 感谢
    pmispig
        58
    pmispig  
       2015-09-12 00:07:37 +08:00
    爬了 2 新浪美女图 3W 张,豆瓣美腿大赛 2000 张。
    给豆瓣友邻点赞,小伙伴一觉起来发现多了几千个赞,吓哭了~
    JensenChen
        59
    JensenChen  
       2015-09-12 00:17:08 +08:00
    @laoyuan 你这个是抓全校全周的课表,然后对教室进行的分析??
    nikoukou
        60
    nikoukou  
       2015-09-12 02:08:08 +08:00
    @laoyuan 千佛山九号楼是雅思楼。。。
    wd0g
        61
    wd0g  
       2015-09-12 03:20:10 +08:00   1
    爬了 1024 所有的账户,然并卵还是没扫到能登录的
    monkeylyf
        62
    monkeylyf  
       2015-09-12 04:06:15 +08:00
    @mckelvin 求代码
    laoyuan
        63
    laoyuan  
       2015-09-12 05:06:45 +08:00
    @JensenChen 是的,按教室弄到一块就行了。
    @nikoukou 今天就有雅思考试,只能去一楼,但是一楼的桌椅质量不好年岁太长有气味!!
    WhiteSaber
        64
    WhiteSaber  
       2015-09-12 08:44:51 +08:00
    @codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差
    bigzhu
        65
    bigzhu  
       2015-09-12 09:35:58 +08:00
    我做了自已用的 http://follow.center/ 算不算?
    整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫
    不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了
    Felldeadbird
        66
    Felldeadbird  
       2015-09-12 09:42:25 +08:00 via iPhone
    我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。
    bbking
        67
    bbking  
       2015-09-12 12:27:59 +08:00
    爬 58
    alexapollo
        68
    alexapollo  
       2015-09-12 12:32:28 +08:00
    前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler
    luago
        69
    luago  
       2015-09-12 16:25:43 +08:00
    我想知道上面爬图的朋友,图片后来怎么处理了 :)
    ljbha007
        70
    ljbha007  
       2015-09-12 17:02:54 +08:00
    爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个
    但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子)
    davidlau
        71
    davidlau  
       2015-09-12 17:07:40 +08:00
    爬新浪微博,做关系链分析

    https://github.com/liuslevis/weiquncrawler/
    sohoer
        72
    sohoer  
       2015-09-12 18:06:36 +08:00
    http://www.shishibi.com/

    大数据抓取、搜索排序优化、聚类、性价比计算、一个人完成真心累
    csx163
        73
    csx163  
       2015-09-12 18:49:18 +08:00
    爬种子,发行并没什么*用
    csx163
        74
    csx163  
       2015-09-12 18:49:25 +08:00
    爬种子,发现并没什么*用
    ultimate010
        75
    ultimate010  
       2015-09-12 19:21:28 +08:00
    实习时候用 20+台丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽
    vivalon
        76
    vivalon  
       2015-09-12 19:23:41 +08:00
    撸过下厨房的菜单
    giuem
        77
    giuem  
       2015-09-12 19:44:10 +08:00 via Android
    @ultimate010 这数据占多少存储空间
    Moker
        78
    Moker  
       2015-09-12 21:23:34 +08:00
    @ljbha007 这些数据应该不是公开的吧 怎么找到入口的
    ljbha007
        79
    ljbha007  
       2015-09-12 21:43:16 +08:00
    @Moker 只是没有链接而已 自己构造 URL 可以进去
    Earthman
        80
    Earthman  
       2015-09-12 22:02:21 +08:00
    @davidlau 某是不是看过你的毕设演讲啊
    break
        81
    break  
       2015-09-13 09:25:43 +08:00   1
    @bigzhu 报个 bug , profile 页面顶部用户名
    bigzhu
        82
    bigzhu  
       2015-09-13 10:02:11 +08:00
    @break 感谢感谢,最近在大改,很多 bug 来不及测试
    erik0
        83
    erik0  
       2015-09-13 11:08:30 +08:00
    太可怕了,这么多爬虫,起了一身鸡皮疙瘩~~
    davidlau
        84
    davidlau  
       2015-09-13 12:10:19 +08:00
    @Earthman 13' BJUT ?
    lxx1
        85
    lxx1  
       2015-09-13 12:23:19 +08:00 via Android
    @ljbha007

    爬完才发现,证件照实在是太丑了。
    ultimate010
        86
    ultimate010  
       2015-09-13 18:41:52 +08:00 via Android
    @giuem 压缩了很少,倒入 mysql 后好像几十 G, 可接受.
    HavenShen
        87
    HavenShen  
       2015-09-14 11:14:25 +08:00
    爬过携程旅游网。
    v2nu
        88
    v2nu  
       2015-09-14 12:43:35 +08:00
    @dai269619118 看起来不错呀
    dai269619118
        89
    dai269619118  
       2015-09-14 15:20:44 +08:00
    @v2nu 嘿嘿
    onlyxuyang
        90
    onlyxuyang  
       2015-09-15 20:32:00 +08:00 via Android
    爬 beautyleg ……爬绅士漫画……
    lzs5240
        91
    lzs5240  
       2015-09-25 17:41:35 +08:00
    @mckelvin 潜水多年特来要源码 ~
    leetao102
        92
    leetao102  
       2015-09-30 00:41:25 +08:00
    @codeforlife 不错。。。
    lazyboy
        93
    lazyboy  
       2015-10-04 11:49:47 +08:00
    @leyle 。。。我是根据浏览量从大到小排序看
    ns2250225
        94
    ns2250225  
       2015-10-15 17:16:34 +08:00
    爬过多玩的搞笑 gif 图库
    yongjiu236z
        95
    yongjiu236z  
       2016-12-11 01:05:06 +08:00
    @xmmak
    @mckelvin
    @Felldeadbird
    +Q2602560384
    yongjiu236z
        96
    yongjiu236z  
       2016-12-15 00:57:34 +08:00
    @lxy
    @imn1
    +2602560384
    ntuwang
        97
    ntuwang  
       2018-09-24 18:42:28 +08:00
    mark
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     6085 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 03:17 PVG 11:17 LAX 20:17 JFK 23:17
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86