群晖存储池损毁

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in，那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动，会导致账号被禁用。

这是一个创建于 612 天前的主题，其中的信息可能已经有所发展或是发生改变。

群晖存储池损毁。联系群晖技术支持，技术支持说日志里出现过 UNC 错误，一般代表硬盘本身发生故障，需要及时更换。删了一下文件后重启就正常了（硬盘状态良好）。查看 S.M.A.R.T. 没发现任何异常记录。过一周，又提示存储池损毁，我在日志里发现了 20 来条 Write error at internal disk 在不同的 sector 。之前一次是没有 I/O 错误日志的。查看 S.M.A.R.T. 还是很健康。

请问是硬盘硬件问题还是逻辑问题？

存储池

硬盘

错误

32 条回复 2024-04-29 14:03:10 +08:00

listenfree

2024-04-24 18:59:52 +08:00

估计是硬盘问题，ssh 上去用 smartctl 看一下。

serafin

2024-04-24 19:04:49 +08:00

HojiOShi

2024-04-24 19:51:29 +08:00

你自己看看 5 197 198 都不是 0 了，SMART 怎么可能还会报健康？你硬盘在哪买的？

serafin

2024-04-24 20:16:47 +08:00

@HojiOShi 群晖 smart 快速检测，还是报良好；硬盘是 chia 矿潮前意大利亚马逊自营买的？应该没问题。用了 23802 小时了。

serafin

2024-04-24 20:22:40 +08:00

不过是 USB 拆出来的。希捷 16TB 氦气

listenfree

2024-04-24 20:26:54 +08:00

sudo smartctl -x -d sat /dev/sata(?) | more. ? 根据你硬盘的情况换成 1 或 2...
如果有下面的内容，smart 就会报健康，但是可以已经有坏块了。
= START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

listenfree

2024-04-24 20:28:31 +08:00

我 8G 矿盘的信息，你可参考
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate PO-R-- 100 100 016 - 0
2 Throughput_Performance P-S--- 134 134 054 - 104
3 Spin_Up_Time POS--- 200 200 024 - 458 (Average 199)
4 Start_Stop_Count -O--C- 100 100 000 - 1225
5 Reallocated_Sector_Ct PO--CK 100 100 005 - 0
7 Seek_Error_Rate PO-R-- 100 100 067 - 0
8 Seek_Time_Performance P-S--- 128 128 020 - 18
9 Power_On_Hours -O--C- 099 099 000 - 12216
10 Spin_Retry_Count PO--C- 100 100 060 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 22
22 Helium_Level PO---K 100 100 025 - 100
192 Power-Off_Retract_Count -O--CK 099 099 000 - 1651
193 Load_Cycle_Count -O--C- 099 099 000 - 1651
194 Temperature_Celsius -O---- 181 181 000 - 33 (Min/Max 12/46)
196 Reallocated_Event_Count -O--CK 100 100 000 - 0
197 Current_Pending_Sector -O---K 100 100 000 - 0
198 Offline_Uncorrectable ---R-- 100 100 000 - 0
199 UDMA_CRC_Error_Count -O-R-- 200 200 000 - 0

ntedshen

2024-04-24 23:29:54 +08:00

感觉。。。但凡截个图丢微信或者丢个翻译软件也不至于讲出这 smart 算正常。。。

错都报在这还跑 selftest 。。。跑的越多只会死的越快。。。

luodan

2024-04-25 00:26:39 +08:00

记得拆解 Seagate 的盘要贴脚的，不能直接用。

cue

2024-04-25 00:32:25 +08:00 via iPhone

我之前存储盘也总是损毁，换了 3 块机械硬盘都用不超过一个月，最后忍无可忍换一块 Sata SSD 一劳永逸了。

serafin

2024-04-25 01:27:49 +08:00

@ntedshen 确实 uncorrectable sectors 爆炸，但是群晖真给你标良好。看了 smart 数据才慌了。

szzys

2024-04-25 01:42:28 +08:00 via Android

我家的群晖都被玩具埋在一起了。快 10 年了还没坏

Yadomin

2024-04-25 02:36:28 +08:00 via Android

毁了一次你还敢接着用

geniussoft

2024-04-25 02:52:06 +08:00 via iPhone

1. 希捷拆盘是垃圾。
2. Smart 检测和结果是硬盘固件提供的，DSM 只负责显示。

serafin

2024-04-25 03:01:01 +08:00

@Yadomin 确实，当时有侥幸心理。开机后，邮件通知说存储池已修复。就看了一眼 smart 结果，没仔细看 smart 各个项目的数据。

serafin

2024-04-25 03:07:53 +08:00

目前硬盘状态不错，DSM 强制开了只读模式。备份了大概 4TB 的数据，希望可以坚持到最后。读取速度保持在 110MB/s - 150MB/s 。

ferock

PRO

2024-04-25 08:35:12 +08:00 via iPhone

@serafin #16

单盘？既然不在乎高可用…备份数据还要坚持？

圈子里很多群晖玩家，用盘都是单盘说只放动作片，丢了无所谓，损毁了却着急的问备份不下来怎么办？

jzphx

2024-04-25 08:53:48 +08:00

希捷一身黑，群晖挂了两块希捷，台式机挂了半块。后面都搞的西数日立没再损毁过

chunkingName

2024-04-25 10:49:55 +08:00

请问这个 smart 怎么看好还是坏啊现值比临界值大就是好么？

libook

2024-04-25 10:51:44 +08:00

前不久刚淘汰一块 Uncorrectable Sectors Count 报 6 的盘，扫扇区发现 6 个扇区不可用、5 个扇区不佳。继续用肯定就会很快恶化了。你这个已经高得比较夸张了。

具体判断硬盘是不是健康最好还是直接看报告里的具体指标。

硬盘故障是比较看运气的，同品牌同型号的硬盘，我有用 2 年就异常走售后的，也有用了 5 年没有任何毛病的。