![]() | 1 itskingname 2021-02-18 11:46:48 +08:00 有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙, |
![]() | 2 AngryPanda 2021-02-18 11:48:23 +08:00 ![]() 不负责任猜想:有权限的用户使用了 chrome 浏览器 |
3 littlelooloo 2021-02-18 11:54:29 +08:00 via Android ![]() 你看到的是前段,google 的蜘蛛抓得是后端 |
![]() | 4 shuax 2021-02-18 11:56:56 +08:00 有可能是还没设置权限就被抓了。 |
![]() | 5 docx 2021-02-18 11:57:22 +08:00 已知的两种可能: 1. 在源码里,假隐藏,打开 F12 找找 2. 针对 Google Bot 开放检索权限 |
![]() | 6 docx 2021-02-18 11:57:56 +08:00 补充一条 3. 还没设置权限时已被抓取 |
7 superrichman 2021-02-18 11:58:20 +08:00 via iPhone 可能做了 seo 优化,也可能就是漏洞 |
![]() | 8 westoy 2021-02-18 11:59:09 +08:00 网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据 |
9 ruixue 2021-02-18 12:14:11 +08:00 ![]() 大概率是针对 Google 做了 SEO,允许 Googlebot 爬 很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅 甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取 |
![]() | 10 coolcatha OP @itskingname @dzyou2007 我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。 @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。 |
13 silymore 2021-02-18 12:40:20 +08:00 via iPhone @AngryPanda 记得 360 浏览器这么干过 |
![]() | 14 coolcatha OP |
15 morethansean 2021-02-18 12:44:55 +08:00 |
![]() | 16 coolcatha OP @morethansean 非常感谢。如果是这样,我也没办法去验证了 |
17 ruixue 2021-02-18 13:06:41 +08:00 |
18 billlee 2021-02-18 14:49:40 +08:00 |
19 ESP 2021-02-18 15:39:54 +08:00 这里还真涉及到 discuz 的两个漏洞 |
![]() | 21 Soar360 2021-02-18 23:21:37 +08:00 判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。 |