两块 NVME 固态组的 (soft) Raid-1, S.M.A.R.T.测试两块盘都没通过 (FAILED) :
- NVM subsystem reliability has been degraded SMART/Helth Information (NVMe Log 0x02) Critical Warning: 0x04 Temperature: 34 Celsius Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 106% Data Units Read: 30,712,672,589 [15.7 PB] Data Units Written: 1,862,279,023 [953 TB] Host Read Commands: 76,147,225,142 Host Write Commands: 9,769,033,638 Controller Busy Time: 52,392,054,374 Power Cycles: 11 Power On Hours: 24,101 Unsafe Shutdowns: 1 Media and Data Integrity Errors: 0 Error Information Log Entries: 144 Warning Comp. Temperature Time: 0 Critical Comp. Temperature Time: 0 Temperature Sensor 1: 34 Celsius Temperature Sensor 2: 36 Celsius
- NVM subsystem reliability has been degraded SMART/Health Information (NVMe Log 0x02) Critical Warning: 0x04 Temperature: 39 Celsius Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 163% Data Units Read: 47,306,232,682 [24.2 PB] Data Units Written: 3,009,805,511 [1.54 PB] Host Read Commands: 132,313,748,968 Host Write Commands: 41,306,780,960 Controller Busy Time: 141,500,864,939 Power Cycles: 19 Power On Hours: 32,831 Unsafe Shutdowns: 6 Media and Data Integrity Errors: 2 Error Information Log Entries: 259 Warning Comp. Temperature Time: 0 Critical Comp. Temperature Time: 0 Temperature Sensor 1: 39 Celsius Temperature Sensor 2: 65 Celsius
有必要立刻迁移数据吗? 感谢
![]() | 1 kokutou 171 天前 via Android 固态不会立刻暴毙,但是这不是服务器吗。。。换硬盘不是供应商的事? |
![]() | 2 defunct9 171 天前 via iPhone 机械飞升在即,赶紧换吧 |
3 oldboy627 171 天前 ![]() 我不是存储有关的人,但是我把第一块数据扔给了 AI ,它给出的结论是:Critical Warning 值为 0x04 ,表明硬盘处于危险状态。 我又去搜索了 NVME 文档验证了下有关于 Critical Warning 的内容,在 NVM-Express-1_4-2019.06.10-Ratified.pdf 中 122 页的 Critical Warning 的部分,给出了具体 bit 的定义。 Critical Warning 的值 0x04 转换为 2 进制的话,是 00000100 ,其第二位是 1 ,根据文档中的定义,如果设置为 1 ,NVM 子系统的可靠性已经降级(If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant media related errors or any internal error that degrades NVM subsystem reliability)。 Percentage Used: 生产厂商对硬盘预计的寿命时间,这个值可以大于 100%,也不一定表示一定发生故障,当这个值大于 254 的时候会使用 255 来表示。 这个值更新时间是每一小时一次。 国外也有人在 reddit 上问过类似的情况。 我的个人建议是,如果数据重要且是公司的存储,换新硬盘更保险,不要自己承担风险。 相关链接 https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf https://www.reddit.com/r/unRAID/comments/vlmody/nvme_ssd_failed_in_smart_test_but_is_still_working/ |
![]() | 4 shakaraka PRO 现在存储便宜得很,该换换 |
![]() | 5 xclimbing 171 天前 ![]() 存储冗余还完全没有使用,按固态的原理,没啥问题,不过数据重要,不差钱就换了吧。换下来可以继续用。 |
9 julyclyde 171 天前 ![]() 想都别想,赶紧换 SMART 报 OK 不一定真的 OK ,但是报错那一定是有错 |
![]() | 10 Felixchen1062 171 天前 是自己的就立刻备份换掉, 是公司的就打个报告, 给出评估结果, 让别人做决定, 记得工作留痕 |
![]() | 11 WuSiYu 171 天前 ![]() 赶紧备份吧,写入量巨大,寿命已经耗尽了,Media and Data Integrity Errors 和 Error Information Log Entries 有值了,鉴定为寄,能活到现在也不容易 |
12 chnsatan 168 天前 数据没那么重要的话,心大点,无所谓。 我有块 14T 的氦气盘,报错一年了,里面都是些电影电视剧,即便炸了也无所谓 |