浏览一个网站, 复制文字后发现是乱码, 但是网页却显示正常, F12 看了下网页文档源码, 确实是乱码, 但是 Chrome 浏览器渲染显示时为什么又正常了呢? 这个防爬虫的技术还是第一次见.
抓取网络请求, 服务器返回的是这段文字 A:
[(] |tscl6qaa| [、] |tco63lkb| [、] |clh6lq91| [、] |jcg6rpb9|cs6mifl7| [专] |stcp6s24|jcpnj688|hpjtc6f6|skqpc6f7|lc6olrd0| [可] | [为] |tckp6eh7|ric6fkr7| [或] | [相] |ic6q8lo8|ckr6hif7|sokjc6d0| [,] |lcplh649| [他] | [专] |ocn6t2m4| [考] |c6skqci7| [入] | [校] |co6in4l5|pc6sjg46| [外] |hc6gfkm7|cr6nmaj4|c6js7lo4|mct6orf7|cmg6kid0| [为] |nlocj6e7|cln6gof7| [。] | [)] |
然后应该是经 JS 处理下, DOM 里面变成下面这段文字 B:
南(单列专它)()((、、、专可为或相他专考入校外为。))
最后渲染到显示器上是正常文字 C. 这段文字即经过了 A → B → C 的转化.
很好奇 B → C 实现的原理?
1 mercury233 2021-05-24 11:55:08 +08:00 换了特殊字体 |
![]() | 2 karloku 2021-05-24 11:56:54 +08:00 应该是字体. 看看如果每次都一样的话可以自己存个映射. |
![]() | 3 madpecker009 2021-05-24 11:57:29 +08:00 百度文库是不是也是这样技术啊 |
![]() | 4 fuxinya OP @mercury233 确实, 刚看了 css 样式里面是 `font-family: cntext5!important;` |
![]() | 5 futureeent 2021-05-24 12:17:24 +08:00 记得斗鱼里的数字也是这样的 |
6 caomu 2021-05-24 14:05:33 +08:00 via Android ![]() 硬要爬就 OCR 一把梭…… |
![]() | 7 phony2r 2021-05-24 14:10:39 +08:00 特殊字体, 一般为了防爬虫 |
8 archonxp 2021-05-24 14:16:36 +08:00 ![]() |
![]() | 9 leeyuzhe 2021-05-24 14:21:34 +08:00 长见识了 |
![]() | 10 magese 2021-05-24 15:56:14 +08:00 长见识了 |
![]() | 11 imn1 2021-05-24 16:36:00 +08:00 ![]() 这招现世好久了,以前少人用是因为中文字多,字体文件大,网速慢 后来有人学乖了,不需要全部中文都替换,替换部分频率高的字就足够了,只要“机器阅读困难”就可以了 |
![]() | 12 fxxkgw 2021-05-24 17:00:19 +08:00 学习了 |