如何屏蔽搜索引擎蜘蛛 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Gce
V2EX    问与答

如何屏蔽搜索引擎蜘蛛

  •  
  •   Gce 2015-01-17 08:49:35 +08:00 4242 次点击
    这是一个创建于 3931 天前的主题,中的信息可能已经有所发展或是发生改变。
    为了给服务器减轻压力,如何屏蔽各大搜索引擎蜘蛛?或者各大蜘蛛IP段?
    15 条回复    2015-01-20 23:23:34 +08:00
    liuchen9586
        1
    liuchen9586  
       2015-01-17 08:51:55 +08:00
    网站根目录下建立个robots.txt文件
    然后内容写上

    User-agent: *
    Disallow: /

    就行了
    Chipper
        2
    Chipper  
       2015-01-17 08:52:47 +08:00
    在网站的根目录里建立一个robots文件即可。
    xfspace
        3
    xfspace  
       2015-01-17 08:53:52 +08:00
    fising
        4
    fising  
       2015-01-17 08:54:54 +08:00 via iPad
    除了robots文件,最好能在服务器层面deny
    typcn
        5
    typcn  
       2015-01-17 09:08:07 +08:00
    我之前尝试过拒绝 UA 中含有 360 的请求,结果 360 搜索非常正常地收录了我的最新内容。
    kiritoalex
        6
    kiritoalex  
       2015-01-17 09:26:31 +08:00 via Android
    @typcn 360爬虫不遵循robots协议,只能屏蔽IP
    hjc4869
        7
    hjc4869  
       2015-01-17 09:34:24 +08:00 via iPhone
    @kiritoalex 360不支持https吧
    kiritoalex
        8
    kiritoalex  
       2015-01-17 09:40:04 +08:00 via iPhone
    @hjc4869 应该是
    kiritoalex
        9
    kiritoalex  
       2015-01-17 09:43:29 +08:00 via iPhone
    最有效的方式是屏蔽搜索引擎整个的IP段,对于遵循robots的爬虫可以直接放robots.txt.不遵循的也只好屏蔽整个IP段了(比如腾讯搜搜和360的爬虫)
    overlords
        10
    overlords  
       2015-01-17 10:44:23 +08:00
    使用dnspod的用户可以在给搜索引擎特地执行一个IP;如127.0.0.1 搞定了;
    miao
        11
    miao  
       2015-01-17 14:06:55 +08:00
    好吧. 我的网站巴不得天天爬虫来爬
    mornlight
        12
    mornlight  
       2015-01-17 14:11:52 +08:00
    robots 有个缓存期,如果需要立马有效的话,nginx里屏蔽UA
    enjoyzhou
        13
    enjoyzhou  
       2015-01-18 01:43:30 +08:00
    只是减少服务器压力,可以通过搜索引擎站长平台调整抓取频率,无需全部禁止的
    ctsed
        14
    ctsed  
       2015-01-18 13:22:00 +08:00
    http://zhanzhang.baidu.com/pressure/index # 站点管理 > 抓取频次

    https://www.google.com/webmasters/tools/settings # 网站设置 > 抓取速度
    kimmykuang
        15
    kimmykuang  
       2015-01-20 23:23:34 +08:00
    国内很多spider是不遵守robots协议的,比如360,明着不要脸的,我们现在采用的方法还是用go实现了一套逻辑去分析用户行为,最终还是为了去ban spider ip,结合着fail2ban使用
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2948 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 13:43 PVG 21:43 LAX 06:43 JFK 09:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86