请问各位大佬, Linux 在空闲时期时不时死机该怎么排查? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Wdafff
V2EX    问与答

请问各位大佬, Linux 在空闲时期时不时死机该怎么排查?

  •  
  •   Wdafff 2023-02-21 09:14:59 +08:00 2407 次点击
    这是一个创建于 970 天前的主题,其中的信息可能已经有所发展或是发生改变。

    1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。

    2.添加了 crash log ,死机重启后并没有日志。

    3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。

    4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。

    第 1 条附言    2023-02-21 11:34:19 +08:00
    现在加了每分钟记录 top ,等下次死机出现看看。。。
    19 条回复    2023-02-21 14:27:03 +08:00
    msclelo
        1
    msclelo  
       2023-02-21 09:26:54 +08:00 via iPhone
    1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
    2. 检查下系统日志,看能不能找到些蛛丝马迹
    3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因)
    4. 重装大法
    wuruxu
        2
    wuruxu  
       2023-02-21 09:31:37 +08:00
    整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
    Wdafff
        3
    Wdafff  
    OP
       2023-02-21 09:35:17 +08:00
    @msclelo #1 2 、3 都排查过了,看不出问题,现在试试开启 coredump ,实在不行再重装了
    pupboss
        4
    pupboss  
       2023-02-21 09:39:27 +08:00
    CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
    Wdafff
        5
    Wdafff  
    OP
       2023-02-21 09:40:11 +08:00
    @wuruxu #2 CPU 开始上升时就已经死机了,所有的监控都断了,脚本还会运行吗
    tlxxzj
        6
    tlxxzj  
       2023-02-21 09:44:45 +08:00
    对网络流量监控看看,可能是被挖矿了
    Wdafff
        7
    Wdafff  
    OP
       2023-02-21 09:45:08 +08:00
    @pupboss #4 空闲时也有可能死机,看历史监控磁盘 IO 并不高,单独压测服务器又没有问题
    neoacj1
        8
    neoacj1  
       2023-02-21 09:45:53 +08:00
    找块新硬盘 dd 过去,排除硬盘问题
    Wdafff
        9
    Wdafff  
    OP
       2023-02-21 09:46:27 +08:00
    @tlxxzj #6 内网服务器也不安装其他软件,应该不会吧,流量看着和其他正常服务器差别不大
    duzhor
        10
    duzhor  
       2023-02-21 09:54:02 +08:00
    你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
    Eytoyes
        11
    Eytoyes  
       2023-02-21 09:56:20 +08:00   1
    物理服务器可以跑硬件诊断看看,排除硬件问题

    遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失
    Wdafff
        12
    Wdafff  
    OP
       2023-02-21 09:59:14 +08:00
    @Eytoyes #11 就是跑一遍压测吗
    fengfisher3
        13
    fengfisher3  
       2023-02-21 10:06:10 +08:00
    如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
    fengfisher3
        4
    fengfisher3  
       2023-02-21 10:08:17 +08:00
    不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
    Wdafff
        15
    Wdafff  
    OP
       2023-02-21 10:13:33 +08:00
    @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
    Eytoyes
        16
    Eytoyes  
       2023-02-21 10:18:09 +08:00
    @Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
    bitdepth
        17
    bitdepth  
       2023-02-21 11:38:43 +08:00
    如果是 hardware ,你 server 有 BMC ?
    LXGMAX
        18
    LXGMAX  
       2023-02-21 14:19:01 +08:00
    遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
    la2la
        19
    la2la  
       2023-02-21 14:27:03 +08:00
    CDH 数据节点,直接下线重做系统
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2654 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 89ms UTC 14:31 PVG 22:31 LAX 07:31 JFK 10:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86