群晖存储池损毁。联系群晖技术支持,技术支持说日志里出现过 UNC 错误,一般代表硬盘本身发生故障,需要及时更换。 删了一下文件后重启就正常了(硬盘状态良好)。查看 S.M.A.R.T. 没发现任何异常记录。过一周,又提示存储池 损毁,我在日志里发现了 20 来条 Write error at internal disk 在 不同的 sector 。 之前一次是没有 I/O 错误日志的。查看 S.M.A.R.T. 还是很健康。
请问是硬盘硬件问题还是逻辑问题?
1 listenfree 2024-04-24 18:59:52 +08:00 估计是硬盘问题,ssh 上去用 smartctl 看一下。 |
![]() | 2 serafin OP |
![]() | 3 HojiOShi 2024-04-24 19:51:29 +08:00 你自己看看 5 197 198 都不是 0 了,SMART 怎么可能还会报健康?你硬盘在哪买的? |
![]() | 4 serafin OP @HojiOShi 群晖 smart 快速检测,还是报良好;硬盘是 chia 矿潮前意大利亚马逊自营买的?应该没问题。用了 23802 小时了。 |
![]() | 5 serafin OP 不过是 USB 拆出来的。希捷 16TB 氦气 |
6 listenfree 2024-04-24 20:26:54 +08:00 sudo smartctl -x -d sat /dev/sata(?) | more. ? 根据你硬盘的情况换成 1 或 2... 如果有下面的内容,smart 就会报健康,但是可以已经有坏块了。 = START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED |
7 listenfree 2024-04-24 20:28:31 +08:00 我 8G 矿盘的信息,你可参考 ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate PO-R-- 100 100 016 - 0 2 Throughput_Performance P-S--- 134 134 054 - 104 3 Spin_Up_Time POS--- 200 200 024 - 458 (Average 199) 4 Start_Stop_Count -O--C- 100 100 000 - 1225 5 Reallocated_Sector_Ct PO--CK 100 100 005 - 0 7 Seek_Error_Rate PO-R-- 100 100 067 - 0 8 Seek_Time_Performance P-S--- 128 128 020 - 18 9 Power_On_Hours -O--C- 099 099 000 - 12216 10 Spin_Retry_Count PO--C- 100 100 060 - 0 12 Power_Cycle_Count -O--CK 100 100 000 - 22 22 Helium_Level PO---K 100 100 025 - 100 192 Power-Off_Retract_Count -O--CK 099 099 000 - 1651 193 Load_Cycle_Count -O--C- 099 099 000 - 1651 194 Temperature_Celsius -O---- 181 181 000 - 33 (Min/Max 12/46) 196 Reallocated_Event_Count -O--CK 100 100 000 - 0 197 Current_Pending_Sector -O---K 100 100 000 - 0 198 Offline_Uncorrectable ---R-- 100 100 000 - 0 199 UDMA_CRC_Error_Count -O-R-- 200 200 000 - 0 |
8 ntedshen 2024-04-24 23:29:54 +08:00 感觉。。。但凡截个图丢微信或者丢个翻译软件也不至于讲出这 smart 算正常。。。 错都报在这还跑 selftest 。。。跑的越多只会死的越快。。。 |
9 luodan 2024-04-25 00:26:39 +08:00 记得拆解 Seagate 的盘要贴脚的,不能直接用。 |
![]() | 10 cue 2024-04-25 00:32:25 +08:00 via iPhone 我之前存储盘也总是损毁,换了 3 块机械硬盘都用不超过一个月,最后忍无可忍换一块 Sata SSD 一劳永逸了。 |
![]() | 11 serafin OP |
![]() | 12 szzys 2024-04-25 01:42:28 +08:00 via Android 我家的群晖都被玩具埋在一起了。快 10 年了还没坏 |
13 Yadomin 2024-04-25 02:36:28 +08:00 via Android 毁了一次你还敢接着用 |
14 geniussoft 2024-04-25 02:52:06 +08:00 via iPhone 1. 希捷拆盘是垃圾。 2. Smart 检测和结果是硬盘固件提供的,DSM 只负责显示。 |
![]() | 15 serafin OP @Yadomin 确实,当时有侥幸心理。开机后,邮件通知说存储池已修复。就看了一眼 smart 结果,没仔细看 smart 各个项目的数据。 |
![]() | 16 serafin OP 目前硬盘状态不错,DSM 强制开了只读模式。备份了大概 4TB 的数据,希望可以坚持到最后。读取速度保持在 110MB/s - 150MB/s 。 |
![]() | 17 ferock PRO |
18 jzphx 2024-04-25 08:53:48 +08:00 希捷一身黑,群晖挂了两块希捷,台式机挂了半块。后面都搞的西数日立没再损毁过 |
19 chunkingName 2024-04-25 10:49:55 +08:00 请问这个 smart 怎么看好还是坏啊 现值比临界值大就是好么? |
![]() |   20 libook 2024-04-25 10:51:44 +08:00 前不久刚淘汰一块 Uncorrectable Sectors Count 报 6 的盘,扫扇区发现 6 个扇区不可用、5 个扇区不佳。继续用肯定就会很快恶化了。你这个已经高得比较夸张了。 具体判断硬盘是不是健康最好还是直接看报告里的具体指标。 硬盘故障是比较看运气的,同品牌同型号的硬盘,我有用 2 年就异常走售后的,也有用了 5 年没有任何毛病的。 |
21 dpx 2024-04-25 11:27:01 +08:00 ![]() 希捷和西数对待坏道的处理方式不同,西数遇到坏道会标记躺平,所以早期很容易发现,希捷是尝试隐藏处理坏道从而继续正常使用,坏道少的话没问题,通常会造成很严重才会发现。 |
![]() | 23 bolsterhoo 2024-04-25 19:50:40 +08:00 电子产品这种是看脸,13 年买的,同时买的 2 块 2T 的,目前情况良好  |
![]() | 24 Autonomous 2024-04-26 18:22:54 +08:00 我有个希捷酷狼也是有坏块,SMART 快速检测无法发现,需要完全检测才行 |
![]() | 25 serafin OP @Autonomous 能映射坏快继续用吗? |
![]() | 26 Autonomous 2024-04-26 22:41:25 +08:00 @serafin 发现坏块后存储空间没有损毁,硬盘会自动重映射,我把重要数据转移走,踢出 RAID ,并执行了一次 Secure Erase ,之后这块盘只用于存储监控录像和备份。 |
27 hanyuwei70 2024-04-28 16:10:25 +08:00 你这个 23k 小时就有 17k 的不可修复扇区了?我有点怀疑你这个是清零盘。 说真的,换盘吧。 |
28 pigeon2049 2024-04-28 16:14:51 +08:00 (建议三台 nas 装 pve 组 ceph 设置双副本或者三副本 坏了块盘直接换,甚至不影响读写 (硬件层面的 raid 或者软 raid 并不保险 现在普遍 10t 单盘以上,真坏盘你还得得一两周重建时间,我猜大部分人等不起 |
29 luoshengdu 2024-04-28 16:47:46 +08:00 |
![]() | 30 serafin OP @luoshengdu 我这里也显示良好,要看 smart 详细的项目 |
31 luoshengdu 2024-04-29 12:36:28 +08:00 @serafin #30 那就继续用一阵子呗。不放重要数据挂了也不怕 |
32 Co1e 2024-04-29 14:03:10 +08:00 快速检测不准确的,建议更换硬盘 |