Colt 贴出了 CDN 流量。煎蛋真的经不起你爬 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
congeec
V2EX    程序员

Colt 贴出了 CDN 流量。煎蛋真的经不起你爬

  •  
  •   congeec
    congee 2017-10-31 15:09:28 +08:00 12764 次点击
    这是一个创建于 2900 天前的主题,其中的信息可能已经有所发展或是发生改变。

    链接: http://jandan.net/pic/page-297#comment-3600673
    可以看出一个 ip 能占好多资源 img img

    讲道理,咱得有点良心对吧。人家煎蛋没咋盈利,真要倒了大家摸鱼都不自在。而且 tumblr 上的妹子多多了去了,经得起你玩,而且好多煎蛋上的妹子图都转自 tumblr。你要是一裤裆火憋不住的话,github 上还有硬盘女神

    第 1 条附言    2017-10-31 15:51:07 +08:00
    第 2 条附言    2017-10-31 17:09:07 +08:00


    貌似现在好一些了
    52 条回复    2017-11-03 14:53:13 +08:00
    Nostalgiaaaa
        1
    Nostalgiaaaa  
       2017-10-31 15:16:16 +08:00
    看到煎蛋底下评论骂声一片。。。真的惨
    Lentin
        2
    Lentin  
       2017-10-31 15:20:26 +08:00
    前排提示 tumblr 有 api 随便爬
    togodo
        3
    togodo  
       2017-10-31 15:22:54 +08:00
    公布爬虫代码的后果居然如此可怕。。。。
    f2f2f
        4
    f2f2f  
       2017-10-31 15:26:12 +08:00
    colt 表示晚上要来这怼人啦!准备好小板凳看戏啦!
    congeec
        5
    congeec  
    OP
       2017-10-31 15:27:38 +08:00
    @togodo 好多脚本小子拿来直接用......
    其实也有树大招风的因素,微软还天天受攻击呢
    qqwinds
        6
    qqwinds  
       2017-10-31 15:28:10 +08:00
    q 前排出售小板凳。。。
    zpf124
        7
    zpf124  
       2017-10-31 15:32:49 +08:00
    吃瓜看戏,小板凳准备好了, 话说有个帖子的哥们不是说 gz 解压之后总共才数据才 16M。

    爬 4/500 的那些大仙到底爬了多少遍,还是说爬虫算法写的太捉急了...
    avrillavigne
        8
    avrillavigne  
       2017-10-31 15:33:27 +08:00
    Livid 啥时候也来怼一波
    yuxuan
        9
    yuxuan  
       2017-10-31 15:35:04 +08:00
    前排看戏
    MrIndescribable
        10
    MrIndescribable  
       2017-10-31 15:35:20 +08:00
    我来带一波节奏:

    aHR0cHM6Ly9pLmltZ3VyLmNvbS9QeEF6SHZuLnBuZw==
    congeec
        11
    congeec  
    OP
       2017-10-31 15:39:26 +08:00
    @MrIndescribable 老哥稳,打开图前我还在想要不要买营养快线呢
    acoldfox
        12
    acoldfox  
       2017-10-31 15:42:04 +08:00
    笑死,从 V2EX 闹到煎蛋又要闹回来了
    mysql
        13
    mysql  
       2017-10-31 15:42:32 +08:00
    他用的什么 cdn
    MrIndescribable
        14
    MrIndescribable  
       2017-10-31 15:42:39 +08:00
    @congeec 我这是新号,图床链接不让发。。。
    zhahngsan
        15
    zhahngsan  
       2017-10-31 15:42:44 +08:00
    硬盘女神还能用吗?
    schema
        16
    schema  
       2017-10-31 15:43:55 +08:00
    某程序员炫耀。。。哈哈哈哈

    也不是一次两次了
    6IbA2bj5ip3tK49j
        17
    6IbA2bj5ip3tK49j  
       2017-10-31 15:44:27 +08:00
    @MrIndescribable

    帮你贴出来
    mdzz
        18
    mdzz  
       2017-10-31 16:06:13 +08:00
    在看到 /t/401866?p=1#r_4904906 50 楼看到下面这张图的时候

    这是启用了分布式爬虫吗?还是说每个请求都新建连接之后又不关闭?

    总之就是觉得这个爬虫技术有点次,还要去爬人家的站
    iCodex
        19
    iCodex  
       2017-10-31 16:09:55 +08:00 via iPhone
    @mysql 好像是又拍云
    yezhiye
        20
    yezhiye  
       2017-10-31 16:43:09 +08:00 via Android
    不是用微博的图床吗…看了下好像就图标还有些 js 文件什么的在服务器上,怎么会被爬掉这么多流量…
    anyele
        21
    anyele  
       2017-10-31 16:56:41 +08:00
    soulmine
        22
    soulmine  
       2017-10-31 16:59:54 +08:00   1
    恕我直言 把人家网站都爬垮的爬虫只能说明太次 无非是什么算法都不优化 一个页面来回爬十几遍 或者说爬起来内部逻辑死循环 一秒钟发了一千个请求 这些都是水平的差距 www
    soulmine
        23
    soulmine  
       2017-10-31 17:01:08 +08:00
    还有这破站有毛线好爬的 虽说我是拿 B 和 zhihu 还有 tieba 当练手的 www
    asd103
        24
    asd103  
       2017-10-31 17:01:59 +08:00
    还是爬 tumblr 吧,丢坟贴
    t/316337#reply49
    jy02201949
        25
    jy02201949  
       2017-10-31 17:08:00 +08:00
    次数多了,流量没看出多了很多啊
    ctsed
        26
    ctsed  
       2017-10-31 17:10:29 +08:00 via Android
    @zpf124 他那只算了 html 页吧,几千几万张图片才 16m ?
    dven
        27
    dven  
       2017-10-31 17:18:20 +08:00
    哈哈哈为啥大家爬的资源都是妹子图
    hcnhcn012
        28
    hcnhcn012  
       2017-10-31 17:29:04 +08:00 via iPhone
    年度大戏?
    Osk
        29
    Osk  
       2017-10-31 18:12:37 +08:00 via Android
    https://{username}.tumblr.com/api/read/json?start={startpostnumber}&num={showposts}
    WordTian
        30
    WordTian  
       2017-10-31 18:36:40 +08:00 via Android
    30 日那天最多的那个爬了 105 万次,平均每秒 12 次多,丧心病狂啊
    zmj1316
        31
    zmj1316  
       2017-10-31 19:22:35 +08:00 via Android
    @ctsed 图片都是微博图床的
    xenme
        32
    xenme  
       2017-10-31 19:29:30 +08:00
    楼上好多厉害的爬虫老司机,合伙写个无影响又快速的煎蛋爬虫好了,或者直接官方出个压缩包,然后直接 BT 每天共享下载
    litter123
        33
    litter123  
       2017-10-31 19:42:12 +08:00
    @WordTian QPS 12,emmm......这很多吗? 105 万次是多了点,不过说实话,也就次数看起来多一点罢了,流量加起来跑了都没 10G 吧
    olOwOlo
        34
    olOwOlo  
       2017-10-31 19:54:18 +08:00
    刚刚翻了一下这个网站,首页不到 3000 页,妹子图、无聊图不过 300 页,其他更少。讲道理整站爬下来估计 5000 次请求左右,更何况图片请求全部在微博上(怎么没人心疼微博?),像第二张图这种明显明显明显有问题的 IP 稍微有点反爬机制都能 ban 了,还是说 CDN 不提供防火墙功能么 = =
    wisper
        35
    wisper  
       2017-10-31 20:05:33 +08:00
    @olOwOlo 因为定期清理。无聊图现在基本保持 300 的留存度,原来是一年到两年清理一次,现在没有教养的没事爬虫一挂,想摸鱼的蛋友就刷不了。所以你们这么牛逼你们自己做个摸鱼的站点啊,非硬生生把人逼得骂脏话才显得你们牛逼大发了吗
    wisper
        36
    wisper  
       2017-10-31 20:08:14 +08:00
    @litter123 煎蛋非盈利,本来就是 sein 老大的个人 blog,后来慢慢成蛋友摸鱼的地方。你可以说 clot 做的慢不好让他女装,但是恶意爬虫这是生孩子没屁眼的行为。
    WordTian
        37
    WordTian  
       2017-10-31 20:28:30 +08:00 via Android
    @litter123 哥们,爬虫不单是看流量的。高并发的时候,对服务器的 cpu 和内存资源消耗是很大。大公司招聘前后端程序员的时候,对这些东西的调优都会有一定要求的。

    针对每个请求,服务器得处理,得读写数据,得把请求的资源返回,这消耗的都是服务器的资源。

    而且那只是其中最显眼的一个爬虫,还有很多其他的爬虫,还有很多蛋友在正常浏览网站(不要小看蛋友的访问量)。整体的访问量还是很高的。

    再加上煎蛋还是基于 wordpress 的站。。。

    再加上站长投放的广告很少,盈利也不多,估计用的网站服务器性能也不咋地。。。
    quickma
        38
    quickma  
       2017-10-31 21:42:41 +08:00
    我觉的 clot 还是有套路的,其实要 ban 爬虫就这么难吗,技术上解决不了?
    MuaGeWang
        39
    MuaGeWang  
       2017-10-31 21:57:53 +08:00
    @x7395759 都是走的 CDN,没有到那边服务器
    banwagong
        40
    banwagong  
       2017-10-31 22:45:38 +08:00
    有没有大佬会做反代的?
    congeec
        41
    congeec  
    OP
       2017-10-31 23:01:32 +08:00 via iPhone
    @banwagong 很多人都会吧。貌似去年 V2EX 流行反代,GayHub 上一大堆反代 Google 的教程和代码
    soulmine
        42
    soulmine  
       2017-10-31 23:39:58 +08:00
    @xenme 没意义啊 就算有 zip 包 你还准备解压 然后在电脑上一个个看完么 本来就是个吐槽的地方
    realpg
        43
    realpg  
    PRO
       2017-11-01 08:41:42 +08:00
    @zpf124 #7 很多入门写爬虫的都不会写兼容 gzip 的 request
    annielong
        44
    annielong  
       2017-11-01 10:03:44 +08:00
    爬虫咋占那么多资源,难道来个循环抓取吗,明显不正常
    xxdd
        45
    xxdd  
       2017-11-01 11:01:18 +08:00
    羡慕站长 可以积累丰富的反爬经验
    yu099
        46
    yu099  
       2017-11-01 11:29:37 +08:00 via Android
    @annielong 可能抓评论?
    litter123
        47
    litter123  
       2017-11-01 12:15:28 +08:00
    @wisper 2333,确实不应该恶意爬虫
    @WordTian emmm....高并发确实很吃 CPU,但是前提是页面是动态的,煎蛋访问量这么大,早就全静态化了。

    wordpress 很庞大,体积很臃肿,效率比较低,但是,静态化以后资源利用几乎降为 0 (除了带宽资源)

    投放的广告虽然少,但是可是一提的,站长日入 500 以上(猜测,不对勿喷)
    WordTian
        48
    WordTian  
       2017-11-01 12:40:57 +08:00
    @litter123
    但是你没算支出啊

    技术:ECS 服务器,RDS 数据库,图床服务器,CDN 服务,Memcache 缓存,网络安全服务及日常维护。
    人员:煎蛋办公室全职员工工资及每月几十位兼职作者的稿费。

    当然,现在煎蛋办公室都没了,人员支出估计少了很多

    关于流量,昨天 sein 的原话:
    "被恶意爬站还被分享爬虫,导致煎蛋这几天高峰访问次数高达 1500 万次 /天
    如果是真实流量当然是好事,但近 9 成是爬虫"
    litter123
        49
    litter123  
       2017-11-01 12:46:48 +08:00
    @WordTian emmm......如果是这样,确实支出很多。

    不过我觉得你说的服务器,除了 CDN 1T 流量最多 300 元左右,其他都能在一台服务器上搞定,一台服务器价格大概 600 月付吧,就算买个 3、4 台组集群(逃
    q573709499
        50
    q573709499  
       2017-11-02 06:26:57 +08:00   1
    @litter123 站长已经多次表示这是他业余时间维护的小站,真日入 500 如何? 9 成流量来自爬虫,你说说怎么盈利,虽然蛋友发的妹子图,无聊图没有版权,好歹也是爱煎蛋的人,而不是我转载回去后声称都是我找的,我爬虫技术好棒棒。坛子里面那个收集妹子图做站点的,删除是删除了,还在他 qq 群里面声称开源爬虫代码,有能力就直接和大站玩啦
    Anhedonia
        51
    Anhedonia  
       2017-11-03 13:02:18 +08:00
    @mdzz
    牵出来看一下
    mdzz
        52
    mdzz  
       2017-11-03 14:53:13 +08:00
    @Anhedonia 圈我也没用啊,这些爬虫都不是我写的,也不是我分享的,我是直接分享爬取后的数据以免大家再次爬取
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     852 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 21:57 PVG 05:57 LAX 14:57 JFK 17:57
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86