面对采集器,有什么好方法防止或者屏蔽采集的吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lightforce
V2EX    问与答

面对采集器,有什么好方法防止或者屏蔽采集的吗?

  •  
  •   lightforce 2014-05-07 21:00:18 +08:00 4333 次点击
    这是一个创建于 4174 天前的主题,其中的信息可能已经有所发展或是发生改变。
    行业是图站,单纯lnmp,负载应该没什么问题。上月50,60G日均,最近几天日流量又涨了几十个G,前4天日均85G,今天估计要逼近95G左右,日均uv比ip少个400左右
    估计是被什么采集器盯上了,火车头,et,狂人这种怎么对付?
    单纯靠log我感觉不现实,refer,ua都可以伪造,
    分析ip工作量又感觉太大?
    6 条回复    2014-05-08 11:48:02 +08:00
    manhere
        1
    manhere  
       2014-05-07 21:03:30 +08:00
    防不了,只有图片打水印还能保留一丁点你的站点信息
    lightforce
        2
    lightforce  
    OP
       2014-05-07 21:06:19 +08:00
    @manhere 图片水印,压缩这种我都做了,但还是被人采,郁闷
    licell
        3
    licell  
       2014-05-07 21:20:50 +08:00
    只要是中文站,都避免不了这个问题
    codingpp
        4
    codingpp  
       2014-05-07 21:55:41 +08:00
    还得是分析log中的ip吧,几秒钟访问超过限制就封掉
    做抓取的表示一般大型网站都是这么屏蔽的
    lightforce
        5
    lightforce  
    OP
       2014-05-07 22:21:08 +08:00
    @codingpp 图站要并发req的,我试过limit,影响体验我没加,现在就limit_conn,limit_rate
    zhurongx
        6
    zhurongx  
       2014-05-08 11:48:02 +08:00   1
    90%的情况下有效的方法:
    把速度快,频率高,已经超出人类操作的频率的来源ip进行限制。监控ip访问流量、次数等特性的工具有很多。
    剩余10%基本无解的方法:
    好的爬虫会有一个ip池,会把请求分散在大量ip服务中转发,隐藏自己速度快频率高的特点,伪装成正常请求。这种情况下,除非你使用限制性逻辑,如积分满多少才可以打开,否则是无解的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4346 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 01:00 PVG 09:00 LAX 18:00 JFK 21:00
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86