生产环境下由于应急运维操作导致的故障如何避免? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhoudaiyu
V2EX    问与答

生产环境下由于应急运维操作导致的故障如何避免?

  •  1
     
  •   zhoudaiyu
    PRO
    2023-02-01 22:59:24 +08:00 via iPhone 1409 次点击
    这是一个创建于 995 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有一些应急场景下需要执行一些平时运维自动化平台或者脚本难以覆盖到的运维命令,需要在服务器上现场敲命令执行,但是情急之下,难免因为粗心大意以及缺少交叉验证(因为人手不是很充足,有时候大家都各忙各的)引发了其他故障,扩大故障影响面。请问大家这种情况怎么能尽量避免呢?因为现阶段运维平台还是难以覆盖到全部场景,我想到的是一个人操作的时候,把要执行的最终命令发到群里让大家看一下,没问题就直接粘进去执行,还有执行前要有灰度操作,或者至少能模拟出执行命令前的大致情况,才能执行。不知道大家对这方面有啥好的想法或者一些实践能指点一下。
    第 1 条附言    2023-02-02 08:25:00 +08:00

    高危操作强制投屏怎么样?让大家一起盯着点

    11 条回复    2023-02-02 16:04:24 +08:00
    pingdog
        1
    pingdog  
       2023-02-01 23:09:03 +08:00 via Android
    处理故障谁还有空看群。。
    MuscleOf2016
        2
    MuscleOf2016  
       2023-02-01 23:16:39 +08:00
    小范围修改验证灰度
    perfectlife
        3
    perfectlife  
       2023-02-01 23:46:24 +08:00 via Android
    这时候就凸显运维的经验和水平了
    darkengine
        4
    darkengine  
       2023-02-01 23:52:59 +08:00
    预算足的话准备一台一模一样的备机,需要现场敲命令的现在备机上运行一遍,没问题再复制粘贴到生产服务器上执行
    GopherDaily
        5
    GopherDaily  
       2023-02-01 23:55:55 +08:00
    故障处理是很考验人的,不要寄希望有人能给你 review ,我个人觉得核心的几点:
    - 胆大,其实这个是前提,遇到大问题,脑子直接宕机的人是不适合的
    - 心细,在得出判断后,再想:如果是 xxx ,那么 yyy ,尽量再去找 yyy 的证据,然后采信 xxx
    - 日常积累
    8zip
        6
    8zip  
       2023-02-01 23:56:59 +08:00 via Android
    核心是避免应急场景
    紧急情况翻车才是常见的
    opengps
        7
    opengps  
       2023-02-02 00:23:05 +08:00
    既然已经是在线开发,那么要做的恐怕也就是多备份了。
    联机开发错误必然直接影响线上,多个人看一遍比你单独找人测试一遍效率质量都要更低
    idblife
        8
    idblife  
       2023-02-02 07:50:40 +08:00 via iPhone
    这是真正考验个人水平的时候
    echo1937
        9
    echo1937  
       2023-02-02 08:41:48 +08:00
    1 、危险操作先报告,批准后再操作;
    2 、解决方案测试环境上先测过,再上生产环境执行;
    3 、现场执行 2 人作业,一人作业一人监护(参考电力作业)
    sparkssssssss
        10
    sparkssssssss  
       2023-02-02 11:37:17 +08:00
    我们有紧急情况的时候,都是一人工作 n 人围观.
    killva4624
        11
    killva4624  
       2023-02-02 16:04:24 +08:00
    找那么几个关键的人一起帮你 review 命令;
    另外一个个人经验是,涉及到文件覆盖类的话,尽可能保持回滚能力,不能一把梭之后无法回头。
    比如要手改代码或者覆盖二进制文件、配置文件,先 cp 一个备份;
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2632 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 15:04 PVG 23:04 LAX 08:04 JFK 11:04
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86