PVE 隔一天自动重启,卡死断流,有人遇到过吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
CareyQ
V2EX    程序员

PVE 隔一天自动重启,卡死断流,有人遇到过吗

  •  
  •   CareyQ 2024-05-27 01:51:22 +08:00 3522 次点击
    这是一个创建于 502 天前的主题,其中的信息可能已经有所发展或是发生改变。

    硬件:CPU 5600G + 微星 A520M-A-PRO 平台:PVE 8

    正常运行着,大概隔一天就访问不了,路由器中也不见了设备,直接插屏幕访问也卡死。必须强制关机,再开机才能用。查看系统日志,总有一条 Reboot 。结合上文也看不出啥问题,每次 Reboot 上面的内容都不一样。

    尝试过加微码,关闭自动更新,关闭直通等操作。

    只运行了 3 个 LCX ,CPU 温度啥的也正常,资源占用也不高,实在是没招了。有大佬知道遇到过吗?

    May 27 00:44:43 pve kernel: Code: fe 7f 44 1f 80 c5 f8 77 c3 80 3d c4 ad a0 00 01 75 0d c5 f9 ef c0 48 81 fb 00 00 00 02 73 13 48 89 d9 48 c1 e9 03 48 83 e3 07 <f3> 48 ab e9 65 fe ff ff c5 fe 7f 07 48 89 fe 48 83 c7 20 48 83 e7 May 27 00:44:43 pve kernel: RSP: 002b:000000c00013cf98 EFLAGS: 00010246 May 27 00:44:43 pve kernel: RAX: 0000000000000000 RBX: 0000000000000000 RCX: 000000000000a000 May 27 00:44:43 pve kernel: RDX: 000000c000648000 RSI: 0000000000000000 RDI: 000000c00069a000 May 27 00:44:43 pve kernel: RBP: 000000c00013cff8 R08: 00000000000a2000 R09: 000000c000648000 May 27 00:44:43 pve kernel: R10: 0000000000000051 R11: 00007f2c528eb000 R12: 00000000006e9f01 May 27 00:44:43 pve kernel: R13: 0000000000df3320 R14: 000000c000200680 R15: 0000000000000003 May 27 00:44:43 pve kernel: </TASK> May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d -- Reboot -- May 27 01:35:20 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) () 
    May 24 13:17:01 pve CRON[353689]: (root) CMD (cd / && run-parts --report /etc/cron.hourly) May 24 13:17:01 pve CRON[353688]: pam_unix(cron:session): session closed for user root May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) May 24 14:17:01 pve CRON[377396]: (root) CMD (cd / && run-parts --report /etc/cron.hourly) May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session closed for user root May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) May 24 15:17:01 pve CRON[401124]: (root) CMD (cd / && run-parts --report /etc/cron.hourly) May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session closed for user root May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) May 24 16:17:01 pve CRON[424904]: (root) CMD (cd / && run-parts --report /etc/cron.hourly) May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session closed for user root -- Reboot -- May 25 00:11:59 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) () 
    25 条回复    2025-07-24 09:29:02 +08:00
    z1WhpL268TWE173O
        1
    z1WhpL268TWE173O  
       2024-05-27 04:14:41 +08:00
    我的第三次 PVE 又有问题了, 这次是连不上网, 重启也解决不了问题, 估计最新这个版本有重大 bug.
    white149
        2
    white149  
       2024-05-27 04:58:25 +08:00 via Android
    有过类似情况是内存报错,我当时是降低频率或只插两条
    geekvcn
        3
    geekvcn  
       2024-05-27 06:23:00 +08:00 via Android
    服务器内存别超频,别开 xmp ,内存默认频率电压加到 1.35V 试试。

    这里科普下 AMD APU 只有 PRO 版支持纯 ECC 内存,AMD 非 APU 全部版本除了 APU 阉割核显的版本比如 5500 ,都支持纯 ECC 内存。

    AMD 非 APU 平台做服务器的有条件的建议上华擎的主板上纯 ECC 内存,服务器可以少很多莫名其妙的问题,华擎 AMD 主板基本都支持纯 ECC 。

    DDR4 非 ECC 内存做服务器的,一律建议非 XMP 默频率电压加到 1.35v 。

    DDR5 非 ECC 内存做服务器的,一律建议用海力士 Adie 非常稳定,而且有内存容量需求的 Adie 插四根更稳定,镁光三星最好不要用,插四根不稳定除非降频。DDR5 24G 48G Mdie 挑主板适配,注意兼容性,新主板新 BIOS 基本没问题。
    Radeon
        4
    Radeon  
       2024-05-27 06:33:44 +08:00
    ruidoBlanco
        5
    ruidoBlanco  
       2024-05-27 06:50:00 +08:00
    遇到。然我目前是 6.5 核,uptime 70 天了,事不升不重。

    ,考掉 mysqld exporter ?
    00oo00
        6
    00oo00  
       2024-05-27 06:50:03 +08:00 via Android
    换内存可以试试
    ltkun
        7
    ltkun  
       2024-05-27 07:08:20 +08:00 via Android
    有台 5700u 还是天钡的 插了 32x2 的笔记本 ddr4 没啥问题也是 pve8 稳定不稳定和内存没多大关系
    wsbqdyhm
        8
    wsbqdyhm  
       2024-05-27 08:04:03 +08:00
    肯定是硬件问题
    totoro625
        9
    totoro625  
       2024-05-27 08:12:56 +08:00
    遇到过一次内存问题,换了大厂内存解决的
    PS:可以先安装 Windows 一段时间,并长期开机,跑几遍测试
    lazyyz
        10
    lazyyz  
       2024-05-27 08:16:18 +08:00
    5600G PVE 8.2.2 内核 6.8.4-3 没有遇到这个情况
    lazyyz
        11
    lazyyz  
       2024-05-27 08:19:06 +08:00
    不过去年在用 7 的时候,遇到过死机情况是因为内存问题,建议 OP 跑一下 memtest86 测试
    yc8332
        12
    yc8332  
      2024-05-27 08:50:18 +08:00
    正常不是内存就是硬盘,用大厂的产品。。May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d 这个看起来是内存问题
    KyonCN
        13
    KyonCN  
       2024-05-27 08:56:04 +08:00 via iPhone
    一样的问题,不过我开了 sriov 。
    我觉得是 bios 的问题。目前关了 c states 在测试
    yinmin
        14
    yinmin  
       2024-05-27 09:14:30 +08:00 via iPhone
    主机或虚拟机有没有对 internet 开放的服务?所有公网服务断开几天,看看有没有死机改善。
    yinmin
        15
    yinmin  
       2024-05-27 09:32:47 +08:00 via iPhone
    对于某些内存条,黑客攻击 http/https 服务,使用特殊包能造成死机(可能与 ddr4/ddr5 内存 bit 翻转有关)
    qW7bo2FbzbC0
        16
    qW7bo2FbzbC0  
       2024-05-27 09:42:20 +08:00
    B660 也约到开机一段时间死机的问题,寄给华硕,他们检查了两次说是内存模块有问题
    TimPeake
        17
    TimPeake  
       2024-05-27 10:20:06 +08:00
    想起了我 N5105 pve 里装 istore, 网口疯狂 up/down 切换,物理机直装再也没出现这问题。
    Mithril
        18
    Mithril  
       2024-05-27 10:30:01 +08:00
    之前说过了,8.1 的内核是有 bug 的,负载高的时候会直接卡死。
    但我是虚拟机卡死,并不是 PVE 。你如果是 8.1 可以更新一下试试。
    children009
        19
    children009  
       2024-05-27 11:36:24 +08:00
    内存是大概率的问题,遇到 1 个群友,换了内存就没问题了
    mingge2333
        20
    mingge2333  
       2024-05-27 11:41:10 +08:00
    pve 遇到过类似的问题, 系统问题很棘手,即便是修复了这个问题, 难保还会遇到其他问题, 后来切换 VMware 就没问题了
    CareyQ
        21
    CareyQ  
    OP
       2024-05-27 11:41:38 +08:00
    @children009 #19 群能加吗,搞这个,一直找不到组织
    CareyQ
        22
    CareyQ  
    OP
       2024-05-27 11:44:10 +08:00
    @mingge2333 #20 我这段时间,一度想换 ESXI ,晚上我先试试上面几位老哥说的方法吧
    CareyQ
        23
    CareyQ  
    OP
       2024-05-27 11:44:54 +08:00
    @Mithril #18 是 8.2.2 版本的了,我晚上先试试上门几位老哥的方法看看吧
    durianY
        24
    durianY  
       334 天前
    同样是这样,你之后解决了吗
    lnbiuc
        25
    lnbiuc  
       79 天前
    同样的问题,有办法吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5490 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 08:43 PVG 16:43 LAX 01:43 JFK 04:43
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86