求助一 PVE 致宿主重的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
MiKing233
V2EX    程序员

求助一 PVE 致宿主重的

  • &nsp;
  •   MiKing233 2024-04-07 11:08:22 +08:00 2955 次点击
    这是一个创建于 550 天前的主题,其中的信息可能已经有所发展或是发生改变。
    事情是, 在 PVE 平上建制了一 Windows11 qemu 例用作外到内的跳板, 但有候在使用端莫名其妙, 然後是 PVE 宿主自己莫名其妙生了一次重, 查 PVE 宿主 syslog 也有, 困了我一段, 不率不高只在特定情下出, 遂有度追查

    昨天通外端到器的候, 在正常使用又生了致宿主意外重的, 以下重一遍我的:

    我打算下 Home Assistant 的 x86-64 image, 就在快下完成端莫名其妙, 排查 PVE 重, 是, 并且所有 VM 例都已被, 不如我上面所的, 查了 syslog 日志仍然和以前一有任何日志, 奈重新 windows11 例才的事情, 不一, Home Assistant 的 image 并有被成功下, Chrome 示崩而下失, 所以我重新了一次下, 果竟然了, 端桌面再一次, PVE 宿主再一次生了重

    以下是 PVE 宿主生重段的 syslog


    基於前得到的信息, 我查得到了如下的息:
    在 Home Assistant 的 image 下完成之前, Windows Defender 先描案, 案 haos_generic-x86-64-12.1.img.xz, 大小 372MIB, 解包後的 haos_generic-x86-64-12.1.img 大小 6GIB, 猜 Windows Defender 解描包内部, 在下完之前被描, Windows Defender 吃掉了不少的 CPU 并且有大量的 DISK I/O, 就是在期例挂掉了, 著宿主也一起走

    於 Syslog 中的日志出, 基本判不是 Linux 或是 ProxmoxVE 自身方面致重的
    硬方面, 於在特定情下, 也不是 RAM/DISK 的
    源方面一始也有疑不是描致功率瞬高致挂掉, 但是後面我用 AIDA64 烤了一一切正常, 猜也不是源或是度的原因

    在 Windows 例中行 CPU 力




    此的 ProxmoxVE 宿主源占用



    但又有很吊的事情, 前我 Windows VM 分配了 8 核心, 我分配更少的核心( 1/2/4Core)重上面的步, Windows Defender 就能正常描完下案, 不挂掉, PVE 宿主也不跟著重, 8/16Core 就致宿主重的

    下面是我的程
    https://cdn.mknetwork.net/files/pverebootissue.mp4

    可以看到在下完成 Windows Defender 始即描后. DISK I/O 上升后例就死掉了, 此刷新 PVE 的 Web 管理端也不通了, 再次上可以看到 PVE 宿主已被重置

    以上, 我感太奇怪了在是看不明白, 各位大佬有有看出些
    32 条回复    2024-04-11 11:04:06 +08:00
    hi2hi
        1
    hi2hi  
       2024-04-07 11:21:07 +08:00
    试试加一个其它的安全软件?例如火绒
    Eiden
        2
    Eiden  
       2024-04-07 11:22:27 +08:00
    pve ui 不能设置繁体吗
    zengxs
        3
    zengxs  
       2024-04-07 11:24:50 +08:00
    按你的报错信息搜了一下

    看到有个案例是磁盘满了导致这个问题
    https://forum.proxmox.com/threads/error-kvm-cpu0-unhandled-wrmsr-unhandled-rdmsr.5046/
    wniming
        4
    wniming  
       2024-04-07 11:30:59 +08:00
    应该跟 pve 无关,我之前也遇到过类似的问题,我当时是启动 windows 虚拟机时分配的核心多会导致物理机重启,猜测是因为 window 虚拟机启动时会执行一些特殊的高功耗的指令,而我又在 bios 里把 cpu 频率固定,导致负载在瞬加增加很多,超过了电源负载瞬态支持的最大值,所以电源断电导致物理机重启。

    建议在 bios 里把 cpu 的睿频关闭,用默频试试,先排除电源供电问题。
        5
    jasonyang9  
       2024-04-07 11:35:09 +08:00 via Android
    同意楼上的老铁,如果 pve 连写日志的机会都没就重启了看着像是硬件问题
    yyzh
        6
    yyzh  
       2024-04-07 11:36:20 +08:00   1
    这里也有讨论 TL;DR:windows 下跑 pve 如果 cpu 模型选 host 会有些奇奇怪怪的问题,选其他的 cpu 模型就行
    https://forum.proxmox.com/threads/win11-vm-opening-many-tabs-at-once-crashes-proxmox-host.140670/
    MiKing233
        7
    MiKing233  
    OP
       2024-04-07 11:43:50 +08:00
    @zengxs 不我我的例和 PVE 的 DISK 空空都很多, 和, Syslog 上面的那些出都不至於宿主重
    MiKing233
        8
    MiKing233  
    OP
       2024-04-07 11:45:41 +08:00
    @jasonyang9 是的 PVE log 的都有直接就被出了--Reboot--, 在一基本就可以排除是故障了
    podel
        9
    podel  
       2024-04-07 11:51:10 +08:00
    最近我也有遇到最新的 pve 会异常重启的问题。
    qW7bo2FbzbC0
        10
    qW7bo2FbzbC0  
       2024-04-07 11:51:30 +08:00
    看了下感觉基本是大陆简体转繁体,不是港澳台那边的口气语法
    MiKing233
        11
    MiKing233  
    OP
       2024-04-07 11:52:57 +08:00
    @wniming 不我烤都不造成重也可以排除供的了吧, 我的源是 100w, 跑 PVE 有使用核, 此 CPU 整功耗都不到 70w
    MiKing233
        12
    MiKing233  
    OP
       2024-04-07 12:01:42 +08:00
    @yyzh 跟我很相似并且 CPU 型也一, 但似乎更偏向於是一故障? 如果是故障何 PVE log 都不及出就重了
    wniming
        13
    wniming  
       2024-04-07 12:02:41 +08:00
    @MiKing233 #11 按我的经验来说不能完全排除,因为我当时固定 cpu 频率就是为了全核心编译大型项目时能更快一些,当时编译程序时所有 cpu 满载并不会导致重启。

    即便你烤机用的是 aida64 的单烤 fpu ,我觉得也不能完全排除供电的问题,更何况你用的电源是 100W 的,这个更让人怀疑是电源问题了,现在主流的电源都是 500w 起步了吧,就算是 flex 电源也很少有 100 瓦的了。
    crazyweeds
        14
    crazyweeds  
       2024-04-07 12:06:24 +08:00
    根据楼上的一些回答,建议把 BIOS 恢复默认值再重试。
    wniming
        15
    wniming  
       2024-04-07 12:08:12 +08:00
    @MiKing233 #11 烤机时整机功耗没达到电源额定最大输出不代表电源够用,你可以看一下 yt 上翼王的电源相关的评测,电源还有各种稳定性的问题,很多太专业的我也不好转述,你自己搜搜看吧。
    MiKing233
        16
    MiKing233  
    OP
       2024-04-07 12:11:47 +08:00
    @wniming 7840HS 是 LAPTOP 平的理器, 而且是迷你主, 100w 的源他已完全了, 另外根#6 所的, 我 CPU 型定 x86-64-v4 后重操作是正常的有, 似乎和定的 CPU 型有, 但是我不明白的是他有任何日志出, 在那篇帖子中也看到有很多人反...
    wniming
        17
    wniming  
       2024-04-07 12:35:13 +08:00 via Android
    @MiKing233 #16 “ 我 CPU 型定 x86-64-v4 后重操作是正常的有”

    也有可能是 cpu 选 host 模式时 Windows 虚拟机会执行特殊指令导致瞬间功耗变得非常高 ,选其他的 cpu 模型虚拟机就没有这些特殊指令。

    也有可能是虚拟化的问题,是虚拟机逃逸影响到了物理机,但这种可能性极低,我从来没见到过,更何给虚拟机分配的 cpu 比较少时就不会出现问题,如果是选择的 cpu 模型问题就不应跟分配的 cpu 数量有关。

    如果想进一步确定原因,可以尝试给物理机 cpu 降频再试试,如果仅仅降频就可以让问题消失,那么基本确定是硬件问题。
    gamexg
        18
    gamexg  
       2024-04-07 12:40:47 +08:00
    特定操作挂,第一反应是硬盘有坏道,操作涉及的文件正好在坏道处.
    不过硬盘问题一般是特定操作卡顿,直接重启的倒是少见.
    rqYzyAced2NbD8fw
        19
    rqYzyAced2NbD8fw  
       2024-04-07 12:41:00 +08:00
    @MiKing233 是“平台”不是“平”,乎有看到用的
    MiKing233
        20
    MiKing233  
    OP
       2024-04-07 12:46:28 +08:00
    @LanhuaMa 不需要您教我怎麽
    MiKing233
        21
    MiKing233  
    OP
       2024-04-07 12:50:06 +08:00
    @gamexg 大概能清楚是哪方向的了, 可以看#6 的 PVE 那篇帖子, 似乎是 7840HX 芯片 Linux 内核或是 qemu 方面的, 有很多人提到了 7840HX 在使用致宿主重并且有任何 log 出
    liubaicai
        22
    liubaicai  
       2024-04-07 12:50:39 +08:00
    @qW7bo2FbzbC0 有点有趣
    suitts
        23
    suitts  
       2024-04-07 12:56:50 +08:00
    我的 4800H 没有出现这个情况。
    tywtyw2002
        24
    tywtyw2002  
       2024-04-07 14:18:24 +08:00
    syslog 又没有内核调试信息

    开 kernel log ,然后 dmesg 去查。
    感觉应该是 kernel panic 了,然后自动重启。
    feirisu
        25
    feirisu  
       2024-04-07 14:29:02 +08:00
    有没有可能是 CPU 问题,比如之前 N5105 就出现过虚拟化后随机重启的问题。
    lhsakudsgdsik
        26
    lhsakudsgdsik  
       2024-04-07 15:32:25 +08:00
    很可能是 cpu 模型的问题,千万不要用 host 模式,我就碰到过,我两台宿主机一台 amd 的用 host 模式一点问题没有,一台 intel 11400 的创建虚拟机就非常卡,aida64 测试内存速度也慢的离谱,就很奇怪不是说 intel 兼容性最好吗,11400 也不是老的 cpu 啊,后来统一用 kvm 创建 cpu
    flyqie
        27
    flyqie  
       2024-04-07 15:45:40 +08:00 via Android
    没遇到过,没记错的话 kernel panic 写不了 syslog 吧。

    还有楼主是江苏的为什么会用繁体并且写的用词这么奇怪?

    历史帖子里也充满了奇奇怪怪的简繁,港台大陆混用。。
    ltkun
        28
    ltkun  
       2024-04-07 15:50:36 +08:00 via Android
    是 amd 不适合虚拟化? op 是小主机吗?小主机一般限制多供电都可能不足
    flynaj
        29
    flynaj  
       2024-04-08 01:49:12 +08:00 via Android
    裸机进 PE 用 aida64 压测一下 CPU ,i7 10700 整机待机功耗 40 瓦,aida64 压测 CPU 功耗高达 400 瓦,电源,或者主板不行可能就出问题了
    MiKing233
        30
    MiKing233  
    OP
       2024-04-10 17:02:12 +08:00
    @wniming
    @flynaj
    @ltkun
    基本可以排除是源的, 我定 CPU 主 1.5GHz, 源 20v5a100w, 此透排插查最大功率不超 20w, 情下不瞬功率能有多高源都是能住的, 在情下仍然了, 不因性能弱程被往後推了很多, 在 Windows Defender 描了一才出而不是一始描瞬就挂掉

    今天宿主又生了一次自重, 只是因我了一 linux , 下去的一瞬器就挂掉了, 但是方式并不能定,

    到目前止我仍然把定是 Linux 内核故障, Linux6.5 7x4x 的支援不充分所致, 我在 proxmox 上看到了很多 7840HS 崩的, 一些回指出可能需要 6.7+内核才能修


    @flyqie
    @tywtyw2002
    我使用 dmesg -wH 是看不到崩生的内核日志, 下大佬於 kernel panic 具是用什麽方式查呢


    @feirisu
    N5105 在化出重的, 那更新 CPU microcode 可以修, 但是於我 CPU 我有看到似的


    @lhsakudsgdsik
    然出了些但是得改用 host 模型, 因我後面又了一下 CPU 性能, x86-64-vX 一相比於 host 下降了近一半的性能, 性能失有法接受

    以上
    tywtyw2002
        31
    tywtyw2002  
       2024-04-11 02:39:33 +08:00 via iPhone
    @MiKing233 google 查。
    内核 debug 是通过 sysctl 或者 boot flag 开的,没开自然没有 debug 信息

    pve kernel debug 大概是个一周到两周的工作,需要搞 kexec 和 kdump 。

    这个帖子没给具体的步骤,但是说了什么是 kernel debug
    https://forum.proxmox.com/threads/debugging-a-random-server-cold-restart-of-a-pve-node.114579/
    MiKing233
        32
    MiKing233  
    OP
       2024-04-11 11:04:06 +08:00
    @tywtyw2002 看了很多同症的, 全都是是 AMD 平(7840HS/7940HS/7950X), PVE 自己莫名其妙重, 完全有 log, 一能出 kernel log 的都有, 解方案全部都是不再使用 host 模型, 我自己一人接著 Debug 下去大概率也果, 精力再折了...

    最初 AMD 的 7840HS 就是看它便宜性能不 780M, 想到跑 Linux ... 在要麽持等 PVE 更新 kernel6.7+, 不然只能成 intel 平了; 最後感帖子我提供助的各位大佬
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     860 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 21:12 PVG 05:12 LAX 14:12 JFK 17:12
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86