求助 Linux 服务器死机有哪些可能的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
bingfengfeifei
V2EX    Linux

求助 Linux 服务器死机有哪些可能的问题

  •  
  •   bingfengfeifei 2024-09-20 14:30:07 +08:00 2692 次点击
    这是一个创建于 385 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一台 Linux 工控机,最近频繁死机。具体的现象就是,PING 无响应,串口连接无任何反应。但是网线的灯是闪的,插拔网线也会亮灯和灭灯。长按电源硬重启恢复。开启 kdump 后,在/var/crash 中无任何文件产生,查看/var/log/messages 无任何异常日志,只是日志停在了死机的那一刻,串口也没有任何崩溃输出。 系统负载低,CPU 硬盘负载接近 0%,内存 15%左右,没有跑什么业务,设备的温度不高,都在 40-50°C 以下,死机的时候没有进行任何操作。

    目前怀疑方向是前段时间厂家给这个设备加了两个 PCI 扩展卡,目前该扩展卡上面还插了两个 PCI 网卡,以及网卡上面有一个光模块,但是没流量。

    这个问题有没有什么好的排查方向,目前在排除扩展卡,还是 PCI 网卡,还是插入的光模块导致。只能一个一个组件进行排除,但是该问题复现时间不确定,整个排查周期可能非常久。有没有什么其他更好的方向分析那个问题呢,还有上面新增的这几个硬件有没有可能导致这种现象发生呢

    15 条回复    2024-09-27 18:26:53 +08:00
    Moyyyyyyyyyyye
        1
    Moyyyyyyyyyyye  
    PRO
       2024-09-20 14:38:53 +08:00
    电源是否稳定,检查内存硬盘是否有问题,大概率是硬件问题
    tomemi
        2
    tomemi  
       2024-09-20 17:39:33 +08:00
    换个内核看看
    yinmin
        3
    yinmin  
       2024-09-21 08:50:45 +08:00 via iPhone
    接显示器/键盘看看死机前有没有报错信息。

    另外,你说的情况不一定 linux 死机,也许通过本机键盘能正常登录,只是网络故障。
    hefish
        4
    hefish  
       2024-09-21 09:25:06 +08:00
    硬件。。。慢慢换吧。。
    sublimevsatom
        5
    sublimevsatom  
       2024-09-21 19:35:24 +08:00 via iPad
    用最新内核看看
    bli22ard
        6
    bli22ard  
       2024-09-21 22:08:04 +08:00
    我之前零刻 eq12 ,安装 pve 慢,然后运行中负载搞了就容易死机。换了内存尝试依旧。后面还了 ssd ,好了。奇怪的是这个 ssd 检测,当移动硬盘什么都正常。
    flynaj
        7
    flynaj  
       2024-09-22 02:09:59 +08:00 via Android
    https://www.memtest.org/ 先跑内存测试。
    basncy
        8
    basncy  
       2024-09-22 11:55:47 +08:00
    遇到过同样的问题, 当时我的情况是 SSD 硬盘快坏了, 换了块硬盘就好了. 庆幸当时还能把数据读出来.
    bingfengfeifei
        9
    bingfengfeifei  
    OP
       2024-09-23 09:37:51 +08:00
    @yinmin console 也没有反应了,而且重启时候的日志分析,日志停在了死机那一刻,CPU 内存状态采集的程序也在那一刻归零一条直线。 大概率还是系统死机了,不仅仅是网络问题
    bingfengfeifei
        10
    bingfengfeifei  
    OP
       2024-09-23 15:13:12 +08:00
    @flynaj 跑了 3,4 个小时,0 error 。。
    druggo
        11
    druggo  
       2024-09-23 20:11:29 +08:00
    @bingfengfeifei 真正的问题日志可能没有机会存盘了,可以考虑开这个远程记录下内核日志 https://www.kernel.org/doc/html/latest/networking/netconsole.html
    dode
        12
    dode  
       2024-09-24 11:13:38 +08:00
    键盘大小写呢
    flynaj
        13
    flynaj  
       2024-09-24 22:06:26 +08:00
    @bingfengfeifei #10 跑一圈,出 pass 就行。然后跑 cpu,windows 下用 aida64 跑系统稳定性测试,只点 fpu. linux 下用 stress-ng --ipsec-mb 0 --ipsec-mb-feature avx2 测试 cpu 。avx2 换成呢最高支持的指令集 avx sse3 sse2 sse 等
    flynaj
        14
    flynaj  
       2024-09-24 22:54:46 +08:00
    cpu 干完,在测硬盘。硬盘闪存颗粒坏的概率就非常高了。
    liuliancao
        15
    liuliancao  
       2024-09-27 18:26:53 +08:00
    dmesg -T|grep -i err 可以看看 另外 crash 没产生 看看 ulimit -a 是否 core 那一行是 0 (应该不是 0 才对)感觉一般是内核或者驱动问题 如果非生产环境,可以先备份好,把系统能升级的升级下 在启动的时候换个内核
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     6131 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 02:23 PVG 10:23 LAX 19:23 JFK 22:23
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86