我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。
于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。
日本国内质保 3 年,免费换新。
售后挺好的。但是噩梦来了。
去年 9 月购入,然后装机,上机架,系统设置,一呵成。
15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。
然后做了 1 个月测试,没发现问题。
然后将业务数据移动到新服务器上。
正常开始跑业务。
也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。
接下来 11 月开始卡了。
各种卡,表现为 smbd 或者 flush 进程 100%。
硬盘 io 全为 0.
甚至 dmesg 都出现内核恐慌了。
分析了下就是写入硬盘,然后没了。
等待 30-300s 随机时间,硬盘写入恢复。
怀疑写入遇到坏块了。
smartctl 测试走起。
好家伙,16 块盘,有 6 块报坏块。
不得不说,日本经销商态度可以。
马上 [私密马赛,私密马赛,私密马赛]
我们给你换。
换货邮费还是经销商全包。
甚至提供先发货,我再退货的服务。
换货之后
陆续小卡,恢复时间很短,基本上 10s 内。
而且 SMART 也不报错,smartctl -t long 测试也能无错通过。
我就放置了。
24 年 1 月 12 日,
又开始了,超级大卡。
这次恢复时间居然超出了 600s ,
所有含写入的进程都在内核恐慌。
dmesg 拉了 300 多行.
关键是这个一卡,公司业务全部要暂停,
硬盘写入读取完全无响应。
同事翘脚抱怨,我就只能打哈哈调试。
之后从 12 日开始到今天 18 日,
每天都有十来次卡顿,
30s-120s 才能恢复。
关键是 SMART 不报错。
日嘛,头都大了。
你要是报错,我就把你提出来找经销商换新啊。
你啥错误都不报,smartctl test 还能正常无错通过。
但是就是卡,简直要了我的狗命。
老板问,为啥服务器又卡了。
我,硬盘可能又坏块,要坏了。
老板,那找厂家换吧。
我,硬盘没报错,暂时还不能保修换新。
老板,你 TM 拿我开心啊,给我去解决这个问题。
我,打工人乖乖退下。
mb 东芝硬盘,
现在虽然偶尔卡顿,但是每天业务还在进行。
我又不能现在卸载硬盘来跑个完整的写入测试。
求问各路大佬有没有什么办法。
任何方法都可以尝试。
真心求问。
1 aaniao002 2024-01-18 17:52:20 +08:00 via Android 感觉像买到 smr 了,用硬盘产品型号那一串查一下,如果是 smr 直接全换了吧。写入量一高各种卡。 |
![]() | 2 lesismal 2024-01-18 17:54:59 +08:00 ![]() 有故障现象就拿去售后,人家没说你用户自己检测不报错就不能售后吧? |
![]() | 3 wuyadaxian OP @aaniao002 CMR ,确认过了。买的时候和商家确认了,官网也确认了,第一次保修换新的时候也确认了,就是 CMR 。但是感觉比 SMR 还垃圾 |
![]() | 4 wuyadaxian OP |
![]() | 5 wuyadaxian OP @lesismal 返厂检查至少 2 周起,检查这两周不给备用盘,RAID10 抽走一半,我怕是要 GG |
![]() | 6 gamexg 2024-01-18 18:17:53 +08:00 ![]() 数据重要不? 重要赶紧买新硬盘替换掉. 另外是不是其它硬件存在问题? 6/16 的故障几率是不是也太离谱了? 电源之类有问题造成硬盘损坏? 要不临时买少量几个其他品牌的盘替换掉目前的盘,然后把替换下来的返厂看看厂家怎么说? |
![]() | 7 bihui 2024-01-18 19:10:54 +08:00 MN08ACA16T/jp 。 我好像买的也是这个 |
![]() | 8 irrigate2554 2024-01-18 19:11:00 +08:00 感觉不至于呀,我这国内买的矿渣东芝盘都还挺好的 |
![]() | 9 3IOhG7M0knRu5UlC 2024-01-18 19:30:12 +08:00 via Android 检查下硬件把 |
![]() | 10 Pichai 2024-01-18 19:32:22 +08:00 我咋看新闻东芝都要把存储业务卖掉了! |
11 Donahue 2024-01-18 19:33:04 +08:00 我觉得主要的硬盘厂商 东芝 西数 希捷就这三家吧,问题应该不是东芝,可能受到电源等外部因素影响的,我去年闲鱼买的东芝 14TB 矿渣都没什么问题 |
![]() | 12 Brunuh2Ville2 2024-01-18 19:37:19 +08:00 via Android 企业级还得是希捷靠谱啊 |
![]() | 13 shijingshijing 2024-01-18 19:42:31 +08:00 东芝的盘是三家里面最稳定的了,建议先还是查看一下电源吧 |
15 MoeWang 2024-01-18 19:57:04 +08:00 via iPhone 要不要做做电源纹波测试先 |
![]() | 16 dasenlin 2024-01-18 19:59:01 +08:00 看样子是硬盘背锅了,按概率讲,就算是数据中心的使用频率和量,一年左右同时坏 6 块,这个概率是极低的。再说第二次换新后还是无缘由的无响应,你要考虑下服务器硬件或者软件设置上的问题了。 这个样子你再次换新硬盘,还是解决不了问题。 可以先把硬盘替换到新硬件平台排除一下原来平台的问题。 |
17 anyinuo0413 2024-01-18 20:07:00 +08:00 ![]() 俩月多 50%的故障率,感觉不是硬盘的问题,检查下机房环境/电源? 再差的盘 故障率也不可能这么高啊… |
![]() | 18 msg7086 2024-01-18 20:12:42 +08:00 @datou MN 是家用级 NAS 盘。 @wuyadaxian 按理说 NAS 系列是不太适合那么多盘放在一个机箱里跑的。企业级才适合这种环境。 比如 Ironwolf 系列只 rate 到 8 块硬盘在一个机箱里跑。 |
![]() | 19 hGaHLRyC 2024-01-18 20:21:04 +08:00 16 块盘那么短时间同时 6 块出现坏块,是不是检查下硬盘外的问题啊,比如主板,震动和供电?这比率太高了把? |
![]() | 20 datou 2024-01-18 20:27:55 +08:00 ![]() |
![]() | 21 leonme 2024-01-18 20:30:06 +08:00 via iPhone @northbrunv 其实都半斤八两,这玩意儿又没啥技术含量,拼的就是价格和售后 |
![]() | 22 wuyadaxian OP |
![]() | 23 wuyadaxian OP @MoeWang 这个没测过,想了解下 |
![]() | 24 wuyadaxian OP @hGaHLRyC 是的。一开始是这么想的。 考虑过 RAID 卡,前板,电源等问题。 RAID 卡是两块,前板也是多块,供电至少电力没问题。 温度适度震动应该都没问题。毕竟机房不是他一台机器。 另外还考虑过 linux 软件内核等问题。 最后测试下来,至少硬盘概率最大。 当然我不能说绝对,至少上面 v 友提到的电源纹波没做过。 |
![]() | 25 wuyadaxian OP @datou 下次认准了。大容量硬盘真是坑多。 |
![]() | 26 wuyadaxian OP @dasenlin 估计要启用老服务器,然后进行测试了。但是老服务器是 windows 家庭版。samba 限制 20 人接入。(没听错,windows 家庭版,不是我负责的,前人的智慧 |
![]() | 27 wuyadaxian OP @msg7086 学到了。有一说一,现在老服务器还有 3TB * 12 的希捷普通盘在 4U 机箱里面跑,听说已经服役了 5 年了,虽然已经挂了 2 块盘,但是稳定性比这个新的还好。 |
![]() | 28 kkk9 2024-01-18 21:22:38 +08:00 啥牌子啥型号的阵列卡,曾经遇到过一些很魔幻的,除了某一个品牌的盘,其他牌子的都各种出问题 |
![]() | 29 lizhengbo 2024-01-18 21:24:20 +08:00 @wuyadaxian Windows 还是稳定, 操作简单, 重新迁移到 Windows Server 就好了. 而且 WinServer 的域权限可以和其他很多文件服务联动, 客户端加不加域都行. WinServer 的文件服务还提供很多强大便携的功能, 权限管理又直观. 例如每创建一个用户, 自动在共享目录下生成该用户的共享目录. 开源的坑太多. |
![]() | 30 lesismal 2024-01-18 21:26:10 +08:00 公司里用,RAID 也不稳,还是多搞一组、一个常用另一个定期备份下好些 看样子我买的几块二手企业级还是很划算的。。 |
![]() | 31 wuyadaxian OP @kkk9 lsi 9211-8i 芯片,IT mode ,直通 linux ,mdadm 软 raid |
32 I3tZ9NgHU44xmaA4 2024-01-18 21:28:32 +08:00 我觉得你这个问题吧,反正你都不可能再用东芝的了,也肯定要换硬盘的了,那你就去买几个同级别的其他牌子硬盘试试好了。 如果其他牌子的没问题,就全换那个牌子。 如果有,就是你们使用上的问题了,要么硬件问题,要么是这个层次的硬盘达不到你们工作强度的需求? 但你如果直接全部上更高级别的硬盘,那不一定有答案,可能有,可能没,反正自己决定了。 |
![]() | 33 wuyadaxian OP @lizhengbo 日本公司,winserver 可是需要大价钱购买的。可不是随便就敢用的,查到就罚几千万。不然为什么前人要用 windows 家庭版做 samba 共享服务,因为 windows 家庭版随机附送,约等于免费。 |
34 6a82aa9bfe 2024-01-18 21:31:22 +08:00 via Android 硬盘最好不要同个厂商同个批次的,这样就算坏了也不至于同时坏 |
![]() | 35 wuyadaxian OP @testonly 是的,所以我在想启用老服务器,先把资料转移回去,持续业务的情况下重新测试新服务器。等测试结果再决定。 |
![]() | 36 wuyadaxian OP @6a82aa9bfe 那批就是同厂,同批次,至少我觉得被坑了。 |
37 mokiki 2024-01-18 21:41:19 +08:00 了解一下 TrueNAS 吧,不仅共享权限设置简单,而且还有邮件报警功能。得益于 OpenZFS 提供的 RAIDZ ,使阵列恢复的用时更少。 你还在等什么,赶快打开你的浏览器下载吧: https://www.truenas.com/truenas-scale/ |
![]() | 38 yyzh 2024-01-18 22:12:43 +08:00 via Android ?你们没备份的么?像我们公司都是用 Barracuda 做本地备份然后每天下班后上传 Barracuda 云做远程备份的,就算服务器硬盘全挂都能很快恢复. |
![]() | 39 jdqingm 2024-01-18 22:31:28 +08:00 会不会是网络冲突什么的 |
![]() | 40 xcodeghost 2024-01-18 23:01:07 +08:00 我们服务器几乎都是东芝的企业级硬盘,感觉质量还可以啊,好像从来都没出现过问题 |
![]() | 42 wuyadaxian OP @xcodeghost 下次换企业级吧,家庭级别感觉不行。 |
![]() | 43 wuyadaxian OP @jdqingm 不会,因为服务器还有系统盘。所以网络和其他服务是正常的。另外卡的时候,在服务器本地操作,挂载的硬盘也无响应。 |
![]() | 44 wuyadaxian OP @yyzh 备份不能替代业务盘,业务卡的时候又不能拖出备份盘来用。 除非做数据集群动态负载均衡。但是小公司没必要吧。 |
![]() | 45 msg7086 2024-01-19 02:48:17 +08:00 @wuyadaxian #27 希捷普通盘?难道是 barracuda……? |
![]() | 46 ZRS 2024-01-19 03:09:21 +08:00 Toshiba 只推荐买 MG 系列 |
47 ltkun 2024-01-19 04:14:58 +08:00 via Android op raid10 竟然用软 raid 不用 zfs zfs 明显更加灵活性能也应该更好 失误哦 民用东芝是不行的 刚刚我用了五年的东芝被替换了 smart 已经报错 80 多次了 |
48 telaviv 2024-01-19 07:19:23 +08:00 买大硬盘推荐先读这个: https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data 自己的 NAS 用了东芝 MG 的氮气盘,比较安静,还算满意。 |
![]() | 49 1KTN90lKW9gVJ9vX 2024-01-19 07:56:44 +08:00 via Android 我用东芝 n300 ,16t ,感觉还不错。 |
![]() | 50 piku 2024-01-19 08:01:42 +08:00 via Android 正常啊,东芝的机械盘故障率一直是很高的(依据:某数据中心公开的统计报告 东芝固态(铠侠)其实还行的,但是性价比不高 |
![]() | 51 litguy 2024-01-19 08:11:17 +08:00 ![]() 感觉不像硬盘问题 硬盘不会这么大规模故障 重点检查硬盘供电,数据线和 RAID 卡 怀疑这些不稳定导致硬盘故障的 16 年企业级存储研发路过 |
![]() | 52 litguy 2024-01-19 08:12:43 +08:00 把硬盘型号,机器配置,RAID 这些相信信息报告一下吧 |
![]() | 53 Actrace 2024-01-19 08:17:18 +08:00 为啥不考虑 SSD ? |
![]() | 54 liuhaibin 2024-01-19 08:30:20 +08:00 10 年前买过 2 次东芝,没到就是坏的。从此不敢买 |
55 ltmst 2024-01-19 08:30:59 +08:00 这种坏盘几率 我咋也感觉不像是硬盘的问题的 类似供电不稳定导致的 |
56 Farewell1987 2024-01-19 08:37:13 +08:00 大容量只推荐企业级硬盘 |
![]() | 58 ReZer0 2024-01-19 08:44:12 +08:00 这个坏盘率的确有些离谱了,除非他们发出来的这个批次的盘大部分都不合格,不然一下子这么多块真的得考虑下电源问题。 |
59 itsjoke 2024-01-19 08:49:10 +08:00 ![]() 最近一年应该买了上千块 MG 系列,坏盘率低于 ST 和 WD 。真的是稳,不过有一段时间老是坏盘,最后经过反复测试发现是机箱开了全速风扇导致的,供 OP 参考! |
![]() | 60 andydebug 2024-01-19 08:50:40 +08:00 人家都退市了,你说渣不渣 |
![]() | 61 liuzimin 2024-01-19 09:07:40 +08:00 via Android 只有我在好奇你是怎么找的赴日工作的吗? |
![]() | 62 villivateur 2024-01-19 09:11:41 +08:00 我觉得可能是你电源或者机柜温度、震动之类的导致的,不然故障率不可能这么离谱 |
![]() | 63 yukiww233 2024-01-19 09:44:07 +08:00 ![]() |
![]() | 64 Torpedo 2024-01-19 10:39:21 +08:00 概率上来说,同品牌换货还不行概率比较低。也有可能是别的问题引起的 |
66 laminux29 2024-01-19 12:15:44 +08:00 哥们没经验啊...其实买之前应该去论坛或 NAS 群问问的。 世界上质量最好的硬盘是日立,没有之一。质量好到把自己的厂子给整垮了,现在买不到了。 最垃圾的是哪个牌子,我不知道,但东芝,是我遇到过,唯一的一款,京东自营全新,用了半年就坏道了的。 企业级的做法是,希捷企业盘与西数企业盘,间隔着用,而且异物理机+异硬件+异 OS 共 3 副本。 |
![]() | 67 sorsens 2024-01-19 13:15:51 +08:00 @wuyadaxian #3 你自己测一下硬盘的读写性能,官方写的 cmr 也可能是 smr 的性能。 测完硬盘性能,就排除一个 |
![]() | 68 janpun 2024-01-19 13:18:18 +08:00 上大学的时候买东芝笔记本,前两个月连续坏了两次,都是因为内置的东芝硬盘 |
![]() | 69 zundamon 2024-01-19 14:10:14 +08:00 看 backblaze 硬盘报告,企业盘的话东芝 MG08 、西数 UltraStar 故障率都不高,希捷有几款高的要避雷。MN 应该是民用降级款,但是这个故障率还是有点高,检查下是否是电源的问题吧 |
70 geniussoft 2024-01-19 14:17:00 +08:00 via iPhone 除了硬盘的问题之外,系统的选择也是大问题。 这种应该直接选择群晖。 我知道 smartctl 人工也能看,但是谁能坚持每天检查呢?忙起来可能直到崩了才想起检查。 以及设置每月 Smart 完全检测,以及 Raid Scrub 。 另外,硬盘目前还是 HGST 牛逼。 |
![]() | 71 zundamon 2024-01-19 14:22:09 +08:00 @geniussoft HGST 已经变 WDC 咯,认准 ultrastar 就行了 |
74 zzboat0422 2024-01-19 16:52:46 +08:00 最近五年管理过一万块以上大容量 HDD ,只有东芝盘让我们遇到了大坑。现在招投标的要求中已经明确禁止用东芝盘了。 |
![]() | 75 dog82 2024-01-19 17:09:48 +08:00 跟电源有关系,供电不足硬盘很容易坏 |
![]() | 76 lizhengbo 2024-01-19 17:25:46 +08:00 @mokiki 小公司, 个人直接上 WinServer 是最强方案, 没有之一. 更别提还有 Hyper-V 强力支援. 大公司其实折腾这种开源或者社区版方案其实算土方法, 不深入研究出问题很难把控, 深入又投入成本太大, 对个人发展其实没啥帮助, 存粹浪费生命. |
![]() | 77 lizhengbo 2024-01-19 17:30:45 +08:00 @mokiki 文件共享, 权限管理等基本需求完全没必要整其他, 就 WinServer 就好了. 除了历史查看, 修改这个需求, 我想不到有比 WinServer 更稳定, 更省心的操作. WinServer 还可以部署在线 Office 预览, 编辑, 兼容性和稳定性不是秒杀 99+的在线办公. |
![]() | 78 kkk9 2024-01-19 21:01:39 +08:00 @wuyadaxian #31 9211 刷了 IT 固件,IOPS 上限也只有 18 万左右。考虑换个卡,你也许有新的发现 |
![]() | 79 wuyadaxian OP 基本确认了问题原因,详情看新帖 https://v2ex.com/t/1010610 |