一直挺好奇的, Google 是如何抓取隐藏内容的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
coolcatha
V2EX    Google

一直挺好奇的, Google 是如何抓取隐藏内容的?

  •  
  •   coolcatha 2021-02-18 11:43:16 +08:00 4414 次点击
    这是一个创建于 1700 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。

    难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
    21 条回复    2021-02-18 23:21:37 +08:00
    itskingname
        1
    itskingname  
       2021-02-18 11:46:48 +08:00
    有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
    AngryPanda
        2
    AngryPanda  
       2021-02-18 11:48:23 +08:00   2
    不负责任猜想:有权限的用户使用了 chrome 浏览器
    littlelooloo
        3
    littlelooloo  
       2021-02-18 11:54:29 +08:00 via Android   1
    你看到的是前段,google 的蜘蛛抓得是后端
    shuax
        4
    shuax  
       2021-02-18 11:56:56 +08:00
    有可能是还没设置权限就被抓了。
    docx
        5
    docx  
       2021-02-18 11:57:22 +08:00
    已知的两种可能:
    1. 在源码里,假隐藏,打开 F12 找找
    2. 针对 Google Bot 开放检索权限
    docx
        6
    docx  
       2021-02-18 11:57:56 +08:00
    补充一条
    3. 还没设置权限时已被抓取
    superrichman
        7
    superrichman  
       2021-02-18 11:58:20 +08:00 via iPhone
    可能做了 seo 优化,也可能就是漏洞
    westoy
        8
    westoy  
       2021-02-18 11:59:09 +08:00
    网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
    ruixue
        9
    ruixue  
       2021-02-18 12:14:11 +08:00   1
    大概率是针对 Google 做了 SEO,允许 Googlebot 爬
    很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅
    甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取
    coolcatha
        10
    coolcatha  
    OP
       2021-02-18 12:20:33 +08:00
    @itskingname
    @dzyou2007

    我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。


    @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。
    docx
        11
    docx  
       2021-02-18 12:30:42 +08:00
    User-Agent 携带了 Google Bot 信息,判断很容易
    @coolcatha
    coolcatha
        12
    coolcatha  
    OP
       2021-02-18 12:37:18 +08:00
    @dzyou2007 这个太容易伪造了,除了 Google bot 的 IP 其他的都能伪造呀
    silymore
        13
    silymore  
       2021-02-18 12:40:20 +08:00 via iPhone
    @AngryPanda 记得 360 浏览器这么干过
    coolcatha
        14
    coolcatha  
    OP
       2021-02-18 12:41:15 +08:00
    @AngryPanda
    @silymore

    Google 不至于吧,早就大新闻了
    coolcatha
        16
    coolcatha  
    OP
       2021-02-18 12:50:33 +08:00
    @morethansean 非常感谢。如果是这样,我也没办法去验证了
    ruixue
        17
    ruixue  
       2021-02-18 13:06:41 +08:00
    @coolcatha 通过 ip 段来判断是不是来自 Googlebot 的访问请求

    很多 GeoDNS 都用了这些 ip 库,可以针对各个搜索引擎的 Bot 返回单独的解析结果
    ESP
        19
    ESP  
       2021-02-18 15:39:54 +08:00
    这里还真涉及到 discuz 的两个漏洞
    coolcatha
        20
    coolcatha  
    OP
       2021-02-18 17:04:20 +08:00 via iPhone
    @ESP 能详细说说吗?或者给个关键词哈
    Soar360
        21
    Soar360  
       2021-02-18 23:21:37 +08:00
    判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2991 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 00:29 PVG 08:29 LAX 17:29 JFK 20:29
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86