链接: http://jandan.net/pic/page-297#comment-3600673
可以看出一个 ip 能占好多资源
讲道理,咱得有点良心对吧。人家煎蛋没咋盈利,真要倒了大家摸鱼都不自在。而且 tumblr 上的妹子多多了去了,经得起你玩,而且好多煎蛋上的妹子图都转自 tumblr。你要是一裤裆火憋不住的话,github 上还有硬盘女神
![]() | 1 Nostalgiaaaa 2017-10-31 15:16:16 +08:00 看到煎蛋底下评论骂声一片。。。真的惨 |
![]() | 2 Lentin 2017-10-31 15:20:26 +08:00 前排提示 tumblr 有 api 随便爬 |
3 togodo 2017-10-31 15:22:54 +08:00 公布爬虫代码的后果居然如此可怕。。。。 |
4 f2f2f 2017-10-31 15:26:12 +08:00 colt 表示晚上要来这怼人啦!准备好小板凳看戏啦! |
6 qqwinds 2017-10-31 15:28:10 +08:00 q 前排出售小板凳。。。 |
![]() | 7 zpf124 2017-10-31 15:32:49 +08:00 吃瓜看戏,小板凳准备好了, 话说有个帖子的哥们不是说 gz 解压之后总共才数据才 16M。 爬 4/500 的那些大仙到底爬了多少遍,还是说爬虫算法写的太捉急了... |
![]() | 8 avrillavigne 2017-10-31 15:33:27 +08:00 Livid 啥时候也来怼一波 |
![]() | 9 yuxuan 2017-10-31 15:35:04 +08:00 前排看戏 |
![]() | 10 MrIndescribable 2017-10-31 15:35:20 +08:00 我来带一波节奏: aHR0cHM6Ly9pLmltZ3VyLmNvbS9QeEF6SHZuLnBuZw== |
![]() | 11 congeec OP @MrIndescribable 老哥稳,打开图前我还在想要不要买营养快线呢 |
12 acoldfox 2017-10-31 15:42:04 +08:00 笑死,从 V2EX 闹到煎蛋又要闹回来了 |
![]() | 13 mysql 2017-10-31 15:42:32 +08:00 他用的什么 cdn |
![]() | 14 MrIndescribable 2017-10-31 15:42:39 +08:00 @congeec 我这是新号,图床链接不让发。。。 |
![]() | 15 zhahngsan 2017-10-31 15:42:44 +08:00 硬盘女神还能用吗? |
![]() | 16 schema 2017-10-31 15:43:55 +08:00 某程序员炫耀。。。哈哈哈哈 也不是一次两次了 |
![]() | 17 6IbA2bj5ip3tK49j 2017-10-31 15:44:27 +08:00 |
![]() | 18 mdzz 2017-10-31 16:06:13 +08:00 |
20 yezhiye 2017-10-31 16:43:09 +08:00 via Android 不是用微博的图床吗…看了下好像就图标还有些 js 文件什么的在服务器上,怎么会被爬掉这么多流量… |
![]() | 21 anyele 2017-10-31 16:56:41 +08:00 |
![]() | 22 soulmine 2017-10-31 16:59:54 +08:00 ![]() 恕我直言 把人家网站都爬垮的爬虫只能说明太次 无非是什么算法都不优化 一个页面来回爬十几遍 或者说爬起来内部逻辑死循环 一秒钟发了一千个请求 这些都是水平的差距 www |
![]() | 23 soulmine 2017-10-31 17:01:08 +08:00 还有这破站有毛线好爬的 虽说我是拿 B 和 zhihu 还有 tieba 当练手的 www |
![]() | 24 asd103 2017-10-31 17:01:59 +08:00 还是爬 tumblr 吧,丢坟贴 t/316337#reply49 |
![]() | 25 jy02201949 2017-10-31 17:08:00 +08:00 次数多了,流量没看出多了很多啊 |
![]() | 27 dven 2017-10-31 17:18:20 +08:00 哈哈哈为啥大家爬的资源都是妹子图 |
![]() | 28 hcnhcn012 2017-10-31 17:29:04 +08:00 via iPhone 年度大戏? |
![]() | 29 Osk 2017-10-31 18:12:37 +08:00 via Android https://{username}.tumblr.com/api/read/json?start={startpostnumber}&num={showposts} |
30 WordTian 2017-10-31 18:36:40 +08:00 via Android 30 日那天最多的那个爬了 105 万次,平均每秒 12 次多,丧心病狂啊 |
32 xenme 2017-10-31 19:29:30 +08:00 楼上好多厉害的爬虫老司机,合伙写个无影响又快速的煎蛋爬虫好了,或者直接官方出个压缩包,然后直接 BT 每天共享下载 |
![]() | 33 litter123 2017-10-31 19:42:12 +08:00 @WordTian QPS 12,emmm......这很多吗? 105 万次是多了点,不过说实话,也就次数看起来多一点罢了,流量加起来跑了都没 10G 吧 |
![]() | 34 olOwOlo 2017-10-31 19:54:18 +08:00 刚刚翻了一下这个网站,首页不到 3000 页,妹子图、无聊图不过 300 页,其他更少。讲道理整站爬下来估计 5000 次请求左右,更何况图片请求全部在微博上(怎么没人心疼微博?),像第二张图这种明显明显明显有问题的 IP 稍微有点反爬机制都能 ban 了,还是说 CDN 不提供防火墙功能么 = = |
35 wisper 2017-10-31 20:05:33 +08:00 @olOwOlo 因为定期清理。无聊图现在基本保持 300 的留存度,原来是一年到两年清理一次,现在没有教养的没事爬虫一挂,想摸鱼的蛋友就刷不了。所以你们这么牛逼你们自己做个摸鱼的站点啊,非硬生生把人逼得骂脏话才显得你们牛逼大发了吗 |
36 wisper 2017-10-31 20:08:14 +08:00 @litter123 煎蛋非盈利,本来就是 sein 老大的个人 blog,后来慢慢成蛋友摸鱼的地方。你可以说 clot 做的慢不好让他女装,但是恶意爬虫这是生孩子没屁眼的行为。 |
37 WordTian 2017-10-31 20:28:30 +08:00 via Android @litter123 哥们,爬虫不单是看流量的。高并发的时候,对服务器的 cpu 和内存资源消耗是很大。大公司招聘前后端程序员的时候,对这些东西的调优都会有一定要求的。 针对每个请求,服务器得处理,得读写数据,得把请求的资源返回,这消耗的都是服务器的资源。 而且那只是其中最显眼的一个爬虫,还有很多其他的爬虫,还有很多蛋友在正常浏览网站(不要小看蛋友的访问量)。整体的访问量还是很高的。 再加上煎蛋还是基于 wordpress 的站。。。 再加上站长投放的广告很少,盈利也不多,估计用的网站服务器性能也不咋地。。。 |
![]() | 38 quickma 2017-10-31 21:42:41 +08:00 我觉的 clot 还是有套路的,其实要 ban 爬虫就这么难吗,技术上解决不了? |
![]() | 40 banwagong 2017-10-31 22:45:38 +08:00 有没有大佬会做反代的? |
![]() | 41 congeec OP @banwagong 很多人都会吧。貌似去年 V2EX 流行反代,GayHub 上一大堆反代 Google 的教程和代码 |
44 annielong 2017-11-01 10:03:44 +08:00 爬虫咋占那么多资源,难道来个循环抓取吗,明显不正常 |
![]() | 45 xxdd 2017-11-01 11:01:18 +08:00 羡慕站长 可以积累丰富的反爬经验 |
![]() | 47 litter123 2017-11-01 12:15:28 +08:00 |
48 WordTian 2017-11-01 12:40:57 +08:00 @litter123 但是你没算支出啊 技术:ECS 服务器,RDS 数据库,图床服务器,CDN 服务,Memcache 缓存,网络安全服务及日常维护。 人员:煎蛋办公室全职员工工资及每月几十位兼职作者的稿费。 当然,现在煎蛋办公室都没了,人员支出估计少了很多 关于流量,昨天 sein 的原话: "被恶意爬站还被分享爬虫,导致煎蛋这几天高峰访问次数高达 1500 万次 /天 如果是真实流量当然是好事,但近 9 成是爬虫" |
![]() | 49 litter123 2017-11-01 12:46:48 +08:00 @WordTian emmm......如果是这样,确实支出很多。 不过我觉得你说的服务器,除了 CDN 1T 流量最多 300 元左右,其他都能在一台服务器上搞定,一台服务器价格大概 600 月付吧,就算买个 3、4 台组集群(逃 |
50 q573709499 2017-11-02 06:26:57 +08:00 ![]() @litter123 站长已经多次表示这是他业余时间维护的小站,真日入 500 如何? 9 成流量来自爬虫,你说说怎么盈利,虽然蛋友发的妹子图,无聊图没有版权,好歹也是爱煎蛋的人,而不是我转载回去后声称都是我找的,我爬虫技术好棒棒。坛子里面那个收集妹子图做站点的,删除是删除了,还在他 qq 群里面声称开源爬虫代码,有能力就直接和大站玩啦 |