1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。
2.添加了 crash log ,死机重启后并没有日志。
3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。
4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。
![]() | 1 msclelo 2023-02-21 09:26:54 +08:00 via iPhone 1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点 2. 检查下系统日志,看能不能找到些蛛丝马迹 3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因) 4. 重装大法 |
![]() | 2 wuruxu 2023-02-21 09:31:37 +08:00 整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药 |
4 pupboss 2023-02-21 09:39:27 +08:00 CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘 |
![]() | 6 tlxxzj 2023-02-21 09:44:45 +08:00 对网络流量监控看看,可能是被挖矿了 |
![]() | 8 neoacj1 2023-02-21 09:45:53 +08:00 找块新硬盘 dd 过去,排除硬盘问题 |
![]() | 10 duzhor 2023-02-21 09:54:02 +08:00 你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹 |
![]() | 11 Eytoyes 2023-02-21 09:56:20 +08:00 ![]() 物理服务器可以跑硬件诊断看看,排除硬件问题 遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失 |
![]() | 13 fengfisher3 2023-02-21 10:06:10 +08:00 如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。 |
![]() | 4 fengfisher3 2023-02-21 10:08:17 +08:00 不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。 |
![]() | 15 Wdafff OP @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器 |
![]() | 16 Eytoyes 2023-02-21 10:18:09 +08:00 @Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作 |
![]() | 17 bitdepth 2023-02-21 11:38:43 +08:00 如果是 hardware ,你 server 有 BMC ? |
![]() | 18 LXGMAX 2023-02-21 14:19:01 +08:00 遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看 |
![]() | 19 la2la 2023-02-21 14:27:03 +08:00 CDH 数据节点,直接下线重做系统 |