
Bytespider 得知来自于头条系。一搜索发现众多小站中招。
几宗罪:
useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,
我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。
搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?
请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?
附图(转载至他站,IIS 日志中类似于此)
1 haoji 2019-10-22 22:01:16 +08:00 via iPhone 别说之前没想过,好像他家的爬虫真的挺占资源的… |
2 xiaomimix5 OP @haoji 关键是不遵守 robots.txt 的 disallow 规则 |
3 wangyzj 2019-10-22 22:12:13 +08:00 好歹人家是爬虫起家的 |
4 mamahaha 2019-10-22 22:13:37 +08:00 不是靠内含段子起家的吗? |
5 uyhyygyug1234 2019-10-22 22:18:59 +08:00 如果是 Bytespider 的 ua,返回一点违禁词。。。 |
6 TheWalkingDead 2019-10-22 22:26:10 +08:00 花钱找人 DDOS 你们,让他们爬虫进不来。 |
7 ddup 2019-10-22 22:28:22 +08:00 via Android 举报他们非法爬取数据 |
8 nevin47 2019-10-22 22:35:20 +08:00 via Android 不遵守 robots 一举报一个准啊 |
9 jeeyong 2019-10-22 23:00:48 +08:00 报警吧..前段时间刚抓一家公司... 一样的事情... |
10 alocne 2019-10-22 23:01:32 +08:00 防火墙屏蔽 110.249.202.0/24 110.249.201.0/24 111.225.149.0/24 111.225.148.0/24 |
11 ClericPy 2019-10-22 23:01:57 +08:00 @uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的... |
13 misaka19000 2019-10-22 23:09:35 +08:00 报警 |
14 nyaapass 2019-10-22 23:16:17 +08:00 报警 + 1 |
15 leonard916 2019-10-22 23:16:53 +08:00 可以告他们 好多程序员都因此收到过传票 |
16 jinliming2 2019-10-22 23:51:11 +08:00 via iPhone 丢个 gzip 炸弹过去 |
17 dioxide 2019-10-23 00:06:03 +08:00 之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过. |
18 xiaoz 2019-10-23 02:02:03 +08:00 @uyhyygyug1234 奇淫技巧 |
19 zbl430 2019-10-23 09:20:13 +08:00 收集证据,律师函 ->起诉 最恨的手段识别这些 ip,返回错误数据(和真的一样) |
20 zsj950618 2019-10-23 09:33:32 +08:00 via Android |
21 humor66 2019-10-23 10:16:44 +08:00 不赶紧爬,怎么做搜索? |
22 cnrting 2019-10-23 12:19:19 +08:00 via iPhone 屏蔽 ip 最简单有效 |
23 unclemcz 2019-10-23 13:30:02 +08:00 直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。 |
24 skenan 2019-10-25 02:56:34 +08:00 自己用的.. ``` if ($http_user_agent ~* (bytespider|scrapy)) { return 444; } ``` |