第一次写 Python 爬虫,是用来抓漫画的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
RqPS6rhmP3Nyn3Tm
V2EX    Python

第一次写 Python 爬虫,是用来抓漫画的

  •  1
     
  •   RqPS6rhmP3Nyn3Tm 2015-12-24 17:14:06 +08:00 9293 次点击
    这是一个创建于 3584 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自觉写得很烂,放上来听听各位大神的意见。
    https://github.com/XIAZY/ComicFetcher.git

    动机是因为想看的漫画没有打包好的,就只能写一个了。目前处于_只是能用_的状态。
    img

    56 条回复    2016-07-24 20:04:00 +08:00
    broono
        1
    broono  
       2015-12-24 17:34:12 +08:00
    666 今晚看看学习学习
    Earthman
        2
    Earthman  
       2015-12-24 17:35:04 +08:00
    楼主有空的话把其他的 ACG 站也抓一下吧,圣诞节迎来一波关闭潮。
    TJT
        3
    TJT  
       2015-12-24 17:36:51 +08:00 via Android
    我也写过一个爬虫来收集工口漫画的,还能识别是黑白的还是彩色的,大概收集了一万多部,写得太烂就不贴出来了
    动机?
    RqPS6rhmP3Nyn3Tm
      nbsp; 4
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 17:37:32 +08:00
    @Earthman 为啥会关闭?
    scenix
        5
    scenix  
       2015-12-24 17:37:58 +08:00
    @TJT 我能说我写过 1024 的爬虫么?还能自动导出 PDF 存到 360 云盘。。。
    RqPS6rhmP3Nyn3Tm
        6
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 17:38:29 +08:00
    @broono 写得很烂,可能会误入岐途……
    还是多看看大神的代码吧
    RqPS6rhmP3Nyn3Tm
        7
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 17:39:55 +08:00
    @TJT 动机非常健康……
    TJT
        8
    TJT  
       2015-12-24 17:40:46 +08:00 via Android
    @scenix 我在草榴有两篇精品贴,你可以猜猜我是谁
    WildCat
        9
    WildCat  
       2015-12-24 17:42:12 +08:00
    自己用 scrapy + py2.7 发现好多字符集报错的地方无法定位。。。有空还是不用 scrapy 了
    scenix
        10
    scenix  
       2015-12-24 17:44:07 +08:00   1
    @TJT 大神啊!手下我的膝盖
    TJT
        11
    TJT  
       2015-12-24 17:50:18 +08:00 via Android
    @scenix 都是人(yin)才
    Allianzcortex
        12
    Allianzcortex  
       2015-12-24 17:51:41 +08:00
    写的代码挺好的啊:-) 分工也很合理
    xingo
        13
    xingo  
       2015-12-24 17:55:48 +08:00
    利用闲暇时间乱写了 win 下一个利用 pixiv 移动端 API 的实现_(:3 」∠)_求轻拍,欢迎维护(。

    https://blog.xingoxu.com/2015/12/PixInTouch/
    RqPS6rhmP3Nyn3Tm
        14
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 18:08:27 +08:00
    @Allianzcortex 真的吗好感动
    holy_sin
        15
    holy_sin  
       2015-12-24 18:12:59 +08:00
    @TJT 不会是东尼吧
    zhao511117
        16
    zhao511117  
       2015-12-24 18:14:20 +08:00
    求教, python 爬虫入门看什么比较好?直接学框架吗?
    RqPS6rhmP3Nyn3Tm
        17
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 18:15:46 +08:00
    @zhao511117 我觉得直接学框架吧,毕竟 Python 还是要快速开发
    FrozenYogurtPuff
        18
    FrozenYogurtPuff  
       2015-12-24 18:18:42 +08:00
    @BXIA 最近轻国被 jc 抓了 据说是腾讯举报的。。。
    TJT
        19
    TJT  
       2015-12-24 18:22:37 +08:00 via Android
    @holy_sin 他发的贴都会自动加精,和站长关系挺好的
    kepenj
        20
    kepenj  
       2015-12-24 18:32:57 +08:00
    @TJT 滴滴~老司机求带
    kepenj
        21
    kepenj  
       2015-12-24 18:34:01 +08:00
    二次元友人,手动点赞
    RqPS6rhmP3Nyn3Tm
        22
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 18:37:03 +08:00
    @FrozenYogurtPuff 那个据说是站长作死,把元老都赶出去了……
    Andy1999
        23
    Andy1999  
       2015-12-24 18:45:21 +08:00 via iPhone
    老司机愿意一起做 ACG 站吗
    Earthman
        24
    Earthman  
       2015-12-24 18:49:54 +08:00
    @FrozenYogurtPuff 腾讯的新闻写的是广州角川举报
    xuzywozz
        25
    xuzywozz  
       2015-12-24 18:50:56 +08:00
    前段时间用了 scrapy 感觉还挺不错的
    RqPS6rhmP3Nyn3Tm
        26
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 18:56:36 +08:00
    @Andy1999 想倒是想,就是水平不够
    做站基本就是 wordpress 的水平
    Andy1999
        27
    Andy1999  
       2015-12-24 19:07:32 +08:00 via iPhone
    @BXIA join us http://jq.qq.com/?_wv=1027&k=blPpWN
    We need someone write python
    caixiexin
        28
    caixiexin  
       2015-12-24 19:13:12 +08:00 via Android
    年初用 py2.x 写过一个爬爱漫画网站的,下下来放电纸书看,结果到现在只看完一本 233333

    lz 加油, mark
    holy_sin
        29
    holy_sin  
       2015-12-24 19:27:11 +08:00
    @TJT 搜迪斯噶
    bdbai
        30
    bdbai  
       2015-12-24 19:32:23 +08:00 via iPhone
    @Andy1999 为什么你这句话各种违和呢。
    @BXIA 很佩弧你第一次写爬虫写这么好。这是我用 Python 写的第一个脚本,用来抓微博图片的。不能更丑了。
    https://github.com/bdbai/weibopic-crawler
    icedx
        31
    icedx  
       2015-12-24 19:36:11 +08:00
    https://gist.github.com/anonymous/c95fd30a078b74e83e32

    这个是我写的 抓取 DMZJ 的日漫 本来是想作为插件的...
    但是一直写不好插件化的架构
    放出来互相学习一个
    这个是学习 Python 一周的早期作品 PEP8 什么的完全不知道 23333333333
    icedx
        32
    icedx  
       2015-12-24 19:37:49 +08:00
    @icedx 附: 上面的脚本需要 PATH 里有 node
    Bryan0Z
        33
    Bryan0Z  
       2015-12-24 19:43:21 +08:00 via Android
    I completely understand that English-speaking people won't use this crawler. Just scroll down for Chinese explanation.
    为什么总感觉楼主在卖萌 2333
    limbo0
        34
    limbo0  
       2015-12-24 20:44:30 +08:00
    海贼, 哈哈

    ```
    '海王(\d+)集','/vols/(\d+)/

    http://comic.ck101.com/comic/170/1/0/1
    ```
    mio4kon
        35
    mio4kon  
       2015-12-24 20:45:47 +08:00
    @TJT 求个码啊。。
    limbo0
        36
    limbo0  
       2015-12-24 20:46:25 +08:00
    不知道封不封 IP 啊 可以改个多线程下
    FrozenYogurtPuff
        37
    FrozenYogurtPuff  
       2015-12-24 20:49:10 +08:00
    @Earthman 想想看 角川在国内和谁合作啊
    binux
        38
    binux  
       2015-12-24 21:28:52 +08:00
    那, 既然 README 说要按格式写出正则, 那至少把可配置的部分独立出来, 好让人知道在哪改吧, 不然还得看代码.
    然后既然可以配置了, 不可能每次配置复制一份代码吧, 所以把它做成类, 把参数传进去可好.
    RqPS6rhmP3Nyn3Tm
        39
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 21:43:03 +08:00 via iPad
    @binux 有点没理解。就是说把正则匹配的那块做成类暴露给用户?
    binux
        40
    binux  
       2015-12-24 21:45:39 +08:00
    @BXIA 啊, 居然是 input() 读入的... 好吧.. 也行吧..
    RqPS6rhmP3Nyn3Tm
        41
    RqPS6rhmP3Nyn3Tm  
    2015-12-24 21:48:18 +08:00 via iPad
    @binux 本来是想直接用命令行参数的,后来发现会被 bash 吃掉……
    binux
        42
    binux  
       2015-12-24 21:49:29 +08:00
    @BXIA 配置文件也可以啊, 还可以保存起来重复利用.
    RqPS6rhmP3Nyn3Tm
        43
    RqPS6rhmP3Nyn3Tm  
    OP
       2015-12-24 21:52:00 +08:00 via iPad
    @binux 对哦有道理
    谢谢巨巨
    Pythagodzilla
        44
    Pythagodzilla  
       2015-12-24 22:05:27 +08:00
    这么多人写过漫画爬虫啊 = =
    咱也贴一个自己写的 https://github.com/juiceyang/MangaSpider
    目前用这个爬了一拳超人和女仆咖啡厅,感觉效果还不错。
    TJT
        45
    TJT  
       2015-12-25 07:52:09 +08:00
    cha1
        46
    cha1  
       2015-12-25 09:20:14 +08:00
    @Andy1999 会一点 Python & PHP ,收不收呢?感觉挺有意思的。
    Andy1999
        47
    Andy1999  
       2015-12-25 09:22:12 +08:00 via iPhone
    xavierskip
        48
    xavierskip  
       2015-12-25 10:31:02 +08:00
    哈,我以前写过一爬虫,用来爬虎扑相册上的图片。后来我把灌篮高手传到虎扑上去,然后就利用虎扑做图床做了个站点,在线看灌篮高手了。哈
    zengyu
        49
    zengyu  
       2015-12-25 12:57:31 +08:00
    mark
    ljdawn
        50
    ljdawn  
       2015-12-25 13:15:00 +08:00
    @TJT 大神,请手下我的膝盖
    samael
        51
    samael  
       2015-12-25 13:42:06 +08:00
    嗯... 都是爬本子
    aceseo
        52
    aceseo  
       2015-12-25 16:43:00 +08:00
    楼主你可以的~
    annielong
        53
    annielong  
       2015-12-25 17:01:47 +08:00
    爬过几十个 G 的 H 漫画,结果一个也没看
    qnnnnez
        54
    qnnnnez  
       2015-12-25 20:13:07 +08:00 via iPhone
    哈哈我也有一个
    https://github.com/qnnnnez/e-spider
    不过代码写得挺乱的
    cyneuzk
        55
    cyneuzk  
       2015-12-28 22:37:45 +08:00
    @scenix 也刚写了一个,不过是用来下种子的
    k1wangziyu
        56
    k1wangziyu  
       2016-07-24 20:04:00 +08:00
    虽然知道这是坟贴,但我想问一句,似乎每个人都说自己学了一周就搞出来个什么什么
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1219 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 23:49 PVG 07:49 LAX 16:49 JFK 19:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86