想不通自建的 Google 镜像是怎么被镜像导航站发现并收录的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
also24
V2EX    问与答

想不通自建的 Google 镜像是怎么被镜像导航站发现并收录的

  •  
  •   also24 2017-04-30 19:14:21 +08:00 8100 次点击
    这是一个创建于 3096 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。

    今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现 日志爆了

    查 Referer 发现许多站点发布了我的镜像的地址出去:

    那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?

    目前怀疑的主要有以下几种情况:

    1. 在 log 里面有看到 bing 的爬虫,有可能进了某些搜索结果
    2. 这个站有申请 Let's encrypt 的证书,在 Google Certificate Transparency 是可以查到子域域名的,gg 开头一看就有特定功能
    3. 我自己健忘,有发过域名给别人但是自己忘了
    4. 我通过这个搜索访问过部分站,在他们的访问日志里留下了 Referer
    第 1 条附言    2017-05-01 14:27:50 +08:00
    一觉睡醒发现好多收藏的…… 你们都是来收藏镜像导航站的吧……
    26 条回复    2017-05-03 02:36:04 +08:00
    wwqgtxx
        1
    wwqgtxx  
       2017-04-30 19:51:09 +08:00 via iPhone   1
    可能分享给了某人然后用 360 浏览器访问过,然后…
    also24
        2
    also24  
    OP
       2017-04-30 19:55:43 +08:00
    @wwqgtxx #1 假设确实是第三条我自己健忘,但那最多也就是三五个人用用,也不至于直接进了镜像导航站呐
    wwqgtxx
        3
    wwqgtxx  
       2017-04-30 19:56:54 +08:00   1
    @also24 你试试在 360 搜索中能不能搜到你的网站,如果能,应该就是 360 浏览器干的好事了
    also24
        4
    also24  
    OP
       2017-04-30 20:02:17 +08:00
    @wwqgtxx #3 试了,啥都没有……
    arnofeng
        5
    arnofeng  
       2017-04-30 20:14:28 +08:00 via iPhone   1
    加上白名单跳转机制即可。比如我的 g.adminhost.org 非允许网站来源不可访问 直允许直接访问。
    also24
        6
    also24  
    OP
       2017-04-30 20:18:20 +08:00
    @arnofeng #5 限制已经加了,比你这个要严格一些。主要是不明白为什么会被抓到。

    另外日志里还频繁出现 PhantomJS 的身影,也不知道想干啥

    111.202.27.182 - - [30/Apr/2017:20:16:56 +0800] "GET / HTTP/1.1" 401 693 "-" "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"
    ZE3kr
        7
    ZE3kr  
       2017-04-30 20:47:38 +08:00 via iPhone
    确实可能是第四条,因为我经常从我的网站统计里翻翻来源,然后就找到了一堆 Google 镜像,当然我不会公开出去
    HXM
        8
    HXM  
       2017-04-30 20:57:52 +08:00 via Android
    我也发现了我的镜像站被收录了。。。
    HXM
        9
    HXM  
       2017-04-30 20:58:36 +08:00 via Android
    @also24 请问怎么加限制呢
    also24
        10
    also24  
    OP
       2017-04-30 21:02:48 +08:00   1
    @HXM #9 我有用 verynginx,自己给自己的浏览器加了个 cookie 特征,在 verynginx 上配置放行策略
    also24
        11
    also24  
    OP
       2017-04-30 21:04:56 +08:00
    @ZE3kr #7 hhhh 我就知道会有人看这个
    bkmi
        12
    bkmi  
       2017-04-30 22:06:13 +08:00
    被扫到的,太正常了
    also24
        13
    also24  
    OP
       2017-04-30 22:12:18 +08:00
    @bkmi #12 好奇这个扫是按什么来的,那些扫端口的我能理解,毕竟 IP 和端口就那么多,但是扫子域名?这工作量感觉有些大啊。
    arnofeng
        14
    arnofeng  
       2017-04-30 22:57:19 +08:00 via iPhone
    @arnofeng 为毛你比我更严格 我也加了 cookie 特征 nginx 自带就可以设置的 +同时判断后台 host+前端判断 host。手动滑稽。
    taineric
        15
    taineric  
       2017-04-30 23:09:19 +08:00 via Android
    bing 爬虫在先还是那些网站收录在先?网站收录了肯定有爬虫。
    taineric
        16
    taineric  
       2017-04-30 23:15:50 +08:00 via Android
    谷歌必应都收录了,必应国内版触关键词被和谐了,国际版还可以看到
    also24
        17
    also24  
    OP
       2017-04-30 23:18:16 +08:00
    @arnofeng #14 这里的 “更严格” 指的是 “开放范围更小” 啦,毕竟你的站还是开放给其它人使用的。而我只需要保证自己能用,所以只是在 cookie 里加了一段表明自己身份用来校验的信息啊。

    @taineric #15 bing 在先,而且非常非常的快,站点刚上线 8 个小时 bing 就来了。比 bing 更早的是 trustnet 的证书扫描请求

    208.93.152.79 - - [17/Apr/2017:10:06:36 +0000] "HEAD / HTTP/1.0" 301 0 "-" "-"
    208.93.152.79 - - [17/Apr/2017:10:06:37 +0000] "HEAD / HTTP/1.0" 301 0 "-" "TLSProbe/1.0 (+https://scan.trustnet.venafi.com/)"
    40.77.167.62 - - [17/Apr/2017:15:09:07 +0000] "GET / HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
    also24
        18
    also24  
    OP
       2017-04-30 23:20:45 +08:00
    @arnofeng #14 另外我这里没有直接用 nginx 自带的一个原因是 nginx 似乎无法自定义 401 错误页面,verynginx 我本身就装的有,配起来又方便,自然就直接用了。


    @taineric #16 你这里的收录指的是收录了网址么?我在各家搜索引擎看到的都只收录了网址,但是没有收录任何页面信息。
    just1
        19
    just1  
       2017-04-30 23:59:04 +08:00 via Android
    在 dns 服务商把搜索引擎 A 到 127.0.0.1
    also24
        20
    also24  
    OP
       2017-05-01 14:30:41 +08:00
    @just1 #19 蛤?屏蔽搜索引擎也不至于这样啊。。。我直接把蜘蛛的请求也 401 掉就好了
    alect
        21
    alect  
       2017-05-01 16:22:36 +08:00
    我有一个很私人的内容直接没敢做域名的 A 记录,自己在家里的路由器上加的记录……
    also24
        22
    also24  
    OP
       2017-05-01 16:43:56 +08:00
    @alect #21 hhhh 曾经这么干过,后来想想太自欺欺人了,还是 Server 端做好防护比较重要
    msg7086
        23
    msg7086  
       2017-05-02 10:32:32 +08:00
    @also24 别人要是能猜出你自定义的域名……
    那你做啥防护都没用了。
    also24
        24
    also24  
    OP
       2017-05-02 10:34:03 +08:00
    @msg7086 #23 那你要保证你站上没有引用任何外站内容,没有任何从你站上跳出的链接,不然抓 Referer 就抓到了
    msg7086
        25
    msg7086  
       2017-05-02 22:38:07 +08:00
    @also24 然后……还是要猜出原站 IP 地址啊。
    also24
        26
    also24  
    OP
       2017-05-03 02:36:04 +08:00
    @also24 #24 =。= 对我这种穷孩子来说,只有两三台主机。。IP 一猜就猜到了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2503 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 15:34 PVG 23:34 LAX 08:34 JFK 11:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86