
正在学习爬虫,然后发页面上看上去比较正常的数字,原来暗藏玄机。
右键选择后,就发现了奇怪的现象,浏览器菜单根本识别不出来这是什么东西。
然后查看源代码发现,好像是一种自定义的字体。
<span class="dzfoYFxr"> 𘟭𘟪𘟪𘟲𘟫𘟪 </span> <cite>万字</cite> 而且,每次刷新都是不一样的。
刷新后是这样的:
<span class="xVHrzwwr"> 𘢦𘢤𘢤𘢠𘢧𘢤 </span> <cite>万字</cite> 查看元素可以发现真的是字体。
那么,请问,这种情况该如何解决?
1 ccino 2018-04-14 16:44:34 +08:00 等高手吧,我没想出来办法。。。。。。。。 |
2 whileFalse 2018-04-14 16:53:42 +08:00 ocr 啊。 |
3 Hzzone 2018-04-14 16:57:30 +08:00 via iPhone 截图 ocr |
4 takato 2018-04-14 16:59:07 +08:00 1.OCR 2.可以考虑实现一个模型 train 一下看看 class 的值和&#后的数字有没有线性或非线性关系。 |
5 xzc0001 2018-04-14 16:59:35 +08:00 直接映射?是不是每个数字只用了一个或者几个对应字体里的字符?可以单独写个函数去转这个数字。 |
6 LeungJZ OP |
7 m939594960 2018-04-14 17:14:03 +08:00 解析字体文件啊? |
8 xujialiang 2018-04-14 17:25:53 +08:00 via iPhone 找 js 里的方法,看它们怎么解析的,抄过来 |
9 sujin190 2018-04-14 17:32:19 +08:00 自定义字体,这个加密牛逼啊,有想法,但是每次生成字体文件应该挺耗资源的吧,那么就不可能有太多份才是,写个脚本刷新试试,看看会不会遇到重复的 |
10 crab 2018-04-14 17:39:05 +08:00 |
11 EPr2hh6LADQWqRVH 2018-04-14 17:42:15 +08:00 这个思路 nice 啊,学习一个 |
12 LeungJZ OP @xujialiang 没有 js 操作,完全的 ssr。在 console 里面打开 diabled javascirpt 一样能渲染出来的。 |
13 LeungJZ OP @sujin190 应该不是每次都生成,但是可能有大量已经生成好的字体文件,已经分散在 cdn 上了。每次输出只要随便取一个就可以了。 |
14 LeungJZ OP @crab 确实,猫眼的也是这样的,但是,很容易就破了,因为他每次引入的字体文件都是一样的,字体都是 stonefont。而这里却每刷新一次就有新的文件。 |
15 boboliu 2018-04-14 18:15:58 +08:00 via Android 可以同时直接解析 TTF 然后比对字形识别 |
16 l0ng 2018-04-14 23:59:34 +08:00 我发现网易云音乐网页版的歌名加入了特殊字符 <b title="不为谁而作的歌">不为<div class="soil">蟊</div>谁而作的歌</b> |
18 projectzoo 2018-04-15 11:18:55 +08:00 我的第一想法就是设置得是字体,毕竟 浏览器 可以无痛解析。 |