今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
xiaomimix5
V2EX    程序员

今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

  •  
  •   xiaomimix5 2019-10-22 21:58:33 +08:00 4534 次点击
    这是一个创建于 2263 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Bytespider 得知来自于头条系。一搜索发现众多小站中招。

    几宗罪:

    • 大并发集中式访问,攻击式地采集数据 Bytespider 爬虫虽然不比 Doos,cc,可是对于 web 服务来讲多大的服务(相对来讲)都能拖垮。 占满 CPU 带宽等资源。
    • 这家伙不受 robots 规则限制

    useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


    我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

    搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

    请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

    附图(转载至他站,IIS 日志中类似于此) iis 日志

    第 1 条附言    2019-10-26 12:14:54 +08:00
    有出新报道了,防头条蜘蛛,胜于防川。
    https://mp.weixin.qq.com/s/X-H3kf_S1D-UUfjjX5F1eg
    24 条回复    2019-10-25 02:56:34 +08:00
    haoji
        1
    haoji  
       2019-10-22 22:01:16 +08:00 via iPhone
    别说之前没想过,好像他家的爬虫真的挺占资源的…
    xiaomimix5
        2
    xiaomimix5  
    OP
       2019-10-22 22:04:45 +08:00
    @haoji 关键是不遵守 robots.txt 的 disallow 规则
    wangyzj
        3
    wangyzj  
       2019-10-22 22:12:13 +08:00
    好歹人家是爬虫起家的
    mamahaha
        4
    mamahaha  
       2019-10-22 22:13:37 +08:00
    不是靠内含段子起家的吗?
    uyhyygyug1234
        5
    uyhyygyug1234  
       2019-10-22 22:18:59 +08:00   10
    如果是 Bytespider 的 ua,返回一点违禁词。。。
    TheWalkingDead
        6
    TheWalkingDead  
       2019-10-22 22:26:10 +08:00   1
    花钱找人 DDOS 你们,让他们爬虫进不来。
    ddup
        7
    ddup  
       2019-10-22 22:28:22 +08:00 via Android
    举报他们非法爬取数据
    nevin47
        8
    nevin47  
       2019-10-22 22:35:20 +08:00 via Android
    不遵守 robots 一举报一个准啊
    jeeyong
        9
    jeeyong  
       2019-10-22 23:00:48 +08:00   2
    报警吧..前段时间刚抓一家公司...
    一样的事情...
    alocne
        10
    alocne  
       2019-10-22 23:01:32 +08:00   1
    防火墙屏蔽
    110.249.202.0/24
    110.249.201.0/24
    111.225.149.0/24
    111.225.148.0/24
    ClericPy
        11
    ClericPy  
       2019-10-22 23:01:57 +08:00
    @uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
    em70
        12
    em70  
       2019-10-22 23:08:22 +08:00
    @mamahaha 内涵段子里的内容难道是自己写的吗
    misaka19000
        13
    misaka19000  
       2019-10-22 23:09:35 +08:00
    报警
    nyaapass
        14
    nyaapass  
       2019-10-22 23:16:17 +08:00
    报警 + 1
    leonard916
        15
    leonard916  
       2019-10-22 23:16:53 +08:00
    可以告他们 好多程序员都因此收到过传票
    jinliming2
        16
    jinliming2  
       2019-10-22 23:51:11 +08:00 via iPhone
    丢个 gzip 炸弹过去
    dioxide
        17
    dioxide  
       2019-10-23 00:06:03 +08:00
    之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
    xiaoz
        18
    xiaoz  
       2019-10-23 02:02:03 +08:00
    @uyhyygyug1234 奇淫技巧
    zbl430
        19
    zbl430  
       2019-10-23 09:20:13 +08:00
    收集证据,律师函 ->起诉

    最恨的手段识别这些 ip,返回错误数据(和真的一样)
    zsj950618
        20
    zsj950618  
       2019-10-23 09:33:32 +08:00 via Android
    salsa.debian.org 是把屏蔽了它的 ip

    110.249.200.0/22, 111.225.148.0/23

    反正丢人已经丢到国外了。
    humor66
        21
    humor66  
       2019-10-23 10:16:44 +08:00
    不赶紧爬,怎么做搜索?
    cnrting
        22
    cnrting  
       2019-10-23 12:19:19 +08:00 via iPhone
    屏蔽 ip 最简单有效
    unclemcz
        23
    unclemcz  
       2019-10-23 13:30:02 +08:00
    直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
    skenan
        24
    skenan  
       2019-10-25 02:56:34 +08:00
    自己用的..
    ```
    if ($http_user_agent ~* (bytespider|scrapy)) {
    return 444;
    }
    ```
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2476 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 12:02 PVG 20:02 LAX 04:02 JFK 07:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86