这两天在学 Python,写了一个 Pixiv 热榜的爬虫,不知道有没有人感兴趣 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
cdxem713
V2EX    分享创造

这两天在学 Python,写了一个 Pixiv 热榜的爬虫,不知道有没有人感兴趣

  •  
  •   cdxem713 2015-09-29 16:03:44 +08:00 6551 次点击
    这是一个创建于 3731 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。

    整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。

    最后生成的目录结构如下:

    daily
    ├── 20150901
    │ ├── full
    │ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
    │ │ ├──......
    │ └── meta.json
    weekly
    ├── 20150901
    monthly
    ├── 20150901
    .....

    GITHUB 地址: pixiv_crawl

    15 条回复    2015-09-30 14:27:25 +08:00
    lidonghao
        1
    lidonghao  
       2015-09-29 16:45:35 +08:00
    up~
    TheC
        2
    TheC  
       2015-09-29 16:57:45 +08:00   2
    作为曾经造作这个轮子的人...感叹一句这个轮子真的已经被造过无数次了

    顺便给我的轮子打个广告: http://rakuen.thec.me/PixivRss/
    cdxem713
        3
    cdxem713  
    OP
       2015-09-29 17:07:23 +08:00
    @TheC 总的来说是比较经典的应用了。
    PIXIV 对爬虫也比较宽容,之前没有对请求做限制的时候 IP 也不会被封。
    Starduster
        4
    Starduster  
       2015-09-29 17:25:21 +08:00
    唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了
    cdxem713
        5
    cdxem713  
    OP
       2015-09-29 18:01:05 +08:00 via iPhone
    @Starduster 需求驱动(·ω·)ノ
    geew
        6
    geew  
       2015-09-29 18:31:35 +08:00
    @TheC 居然还提供 RSS 简直赞 话说官方有 rss 么
    nikubenki
        7
    nikubenki  
       2015-09-29 18:47:54 +08:00 via iPhone
    可不可以爬不在链接里的图呢
    cdxem713
        8
    cdxem713  
    OP
       2015-09-29 19:39:24 +08:00
    @nikubenki 额,不在链接里是指?
    nikubenki
        9
    nikubenki  
       2015-09-29 19:42:26 +08:00 via iPhone
    @cdxem713 就是说服务器里有这张图,但是没有链接指向它。
    LancerComet
        10
    LancerComet  
       2015-09-29 19:44:20 +08:00
    @TheC B 站基佬?
    Velacielad
        11
    Velacielad  
       2015-09-29 20:26:46 +08:00
    hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜
    cdxem713
        12
    cdxem713  
    OP
       2015-09-29 20:48:23 +08:00 via iPhone
    nccer
        13
    nccer  
       2015-09-29 21:18:12 +08:00
    我的第一个爬虫是爬我们学校的成绩表和个人信息
    deadEgg
        14
    deadEgg  
       2015-09-30 08:36:37 +08:00
    赞!
    TheC
        15
    TheC  
       2015-09-30 14:27:25 +08:00
    @geew 我一直觉得正是因为官方不提供 rss 才造成前前后后这么多人去爬 Pixiv 排行 233
    @LancerComet 是 B 站不是基佬!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5157 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 05:58 PVG 13:58 LAX 21:58 JFK 00:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86