如何在 cloudflare 上彻底屏蔽一个指定的爬虫/bot? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
不要在回答技术问题时复制粘贴 AI 生成的内容
BiQuanMe
V2EX    程序员

如何在 cloudflare 上彻底屏蔽一个指定的爬虫/bot?

  •  
      BiQuanMe 2023-04-29 09:12:01 +08:00 3237 次点击
    这是一个创建于 895 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个垃圾爬虫 /bot, robot.txt 屏蔽了仍然无法阻止, 所以想请教下如何直接在 cloudflare 那边直接屏蔽掉?

    16 条回复    2023-05-02 12:28:43 +08:00
    xuhaotian
        1
    xuhaotian  
       2023-04-29 09:29:36 +08:00 via iPhone
    查 asn 屏蔽整段 IP ?
    coinsmask
        2
    coinsmask  
       2023-04-29 09:32:40 +08:00
    @xuhaotian 不是屏蔽整段 ip, 是指屏蔽某个指定的爬虫 /bot, 在日志中看到了它, 想把它彻底屏蔽掉, 你屏蔽整段 ip, 不是倒水把孩子也一起倒出去吗?

    另外请教下, 如果知道一个 bot/爬虫名字, 如何查到来源, 这样可以逆源谁做的这个 bot/爬虫?
    MoeMoesakura
        3
    MoeMoesakura  
       2023-04-29 09:44:34 +08:00
    @coinsmask 封 UserAgent
    MoeMoesakura
        4
    MoeMoesakura  
       2023-04-29 09:45:02 +08:00
    @coinsmask 你的 Nginx 日志应该有 UA ,可以直接去找这个 UA
    yaott2020
        5
    yaott2020  
       2023-04-29 09:46:28 +08:00 via Android
    开个 5 秒盾?
    leaflxh
        6
    leaflxh  
       2023-04-29 10:16:20 +08:00
    进入到域名的面板,Security--->WAF--->create rule--->If incoming requests match… 下面可以选择 User-Agent -->Then take action…选择 block
    4BVL25L90W260T9U
        7
    4BVL25L90W260T9U  
       2023-04-29 10:21:06 +08:00
    robots.txt 是君子协定,估计也就搜索引擎会遵守,加这个没用的。楼上说的什么封 User-Agent 更没有任何卵用了,客户端能随便改的东西,你封了有啥意义?

    开五秒盾还是很有意义的,可以挡住大部分不是精心构造就要爬你的爬虫,但是代价是牺牲一些用户体验。
    herozzm
        8
    herozzm  
       2023-04-29 10:59:34 +08:00 via iPhone
    找到知道 ua ,host 反查确定是真的指定爬虫 ip ,block
    baobao1270
        9
    baobao1270  
       2023-04-29 13:11:47 +08:00
    1. 屏蔽 User-Agent
    2. 打开「浏览器完整性检查」
    MoeMoesakura
        10
    MoeMoesakura  
       2023-04-29 15:08:22 +08:00
    @ospider 虽然话是这么说,但是他是屏蔽「指定的爬虫」
    4BVL25L90W260T9U
        11
    4BVL25L90W260T9U  
       2023-04-29 16:46:55 +08:00
    @MoeMoesakura 我知道啊,问题就是这个“指定的爬虫”他肯定会伪装啊,没准楼主会觉得怎么把这个爬虫屏蔽了,又冒出来另一个了
    cy18
        12
    cy18  
       2023-04-29 22:28:59 +08:00
    @ospider LZ 既然在日志里看到了,应该就有特征,有特征就有办法屏蔽。爬虫当然可以伪装,但是伪装完就不是之前那个“指定的爬虫”了。
    coinsmask
        13
    coinsmask  
       2023-05-02 12:02:01 +08:00
    @MoeMoesakura
    @leaflxh 感谢两位, 已经在 waf 中设置, 观察几天看看效果.
    coinsmask
        14
    coinsmask  
       2023-05-02 12:02:36 +08:00
    @herozzm 请问如何通过已知 UA, 然后 host 反查爬虫?
    herozzm
        15
    herozzm  
       2023-05-02 12:11:54 +08:00
    coinsmask
        16
    coinsmask  
       2023-05-02 12:28:43 +08:00
    @herozzm 谢谢, 我这个是特定爬虫, 某个行业内的爬虫
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2678 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 15:06 PVG 23:06 LAX 08:06 JFK 11:06
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86