https://mp.weixin.qq.com/s/rJ2_TEc9mDxfJ1q4gCN-Zg
最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。稳定性是云服务的生命线,对我们的客户至关重要。我们将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性,不辜负客户所托!
估计赔偿是有了,但是感觉对服务有点不放心了
![]() | 1 mytsing520 PRO ![]() 基础设施是别人的,应急预案几乎都使不上 |
![]() | 2 Ansen 2022-12-25 18:07:36 +08:00 via iPhone 阿里就国内不错,海外全是租设备,当二道贩子 |
3 cveoy 2022-12-25 18:40:35 +08:00 ![]() 阿里的道歉信为什么要用微信发?笑死 |
4 wangxiaoaer 2022-12-25 18:52:32 +08:00 ![]() 就想知道他那个服务状态页面是不是个摆设? |
![]() | 5 rb6221 2022-12-25 18:53:21 +08:00 总结:温度太高了 空调也歇逼了 导致烧到冒烟死机 |
![]() | 6 zwnozhuce 2022-12-25 19:03:43 +08:00 还是国际知名云厂商相对靠谱些, 比如 AWS |
![]() | 9 SQLException OP |
10 salmon5 2022-12-25 19:47:41 +08:00 |
11 salmon5 2022-12-25 19:49:21 +08:00 |
![]() | 12 picone 2022-12-25 19:58:52 +08:00 很好奇这些机房应该有买保险吧?有没有行内的人解释一下? |
13 simau 2022-12-25 20:02:49 +08:00 公告里面有提到要上线新的状态页,估计就是静态页面 |
![]() | 14 Yourshell 2022-12-25 20:14:06 +08:00 阿里云的站内消息估计也就是发广告用的 |
![]() | 15 CFM880 2022-12-25 21:00:57 +08:00 我:720/744=0.967741935483871 , 本次事故属于低于 99%但等于或高于 95%,实例月度服务费的 25% 是吧 https://status.aliyun.com/上面轻量云 18 号是可以用状态,但是事实上是不可用,https://sla.console.aliyun.com/ 上监控 SLA 受损的产品实例,不可靠,麻烦确认是不是上面的赔付等级 阿里云:您好 : 抱歉根据您反馈的记录确实无法直接确认,您可以次月第 5 个工作日后,您可以通过 https://sla.console.aliyun.com/ 查看相关记录并在线申请。对于给您带来的影响,我们再次向您表示歉意,感谢您的理解。 看看能不能顺利申请到赔偿,这个 sla 上的监控估计是没有监控到不可用的时候,看看还要不要自己举证 |
![]() | 16 qq723985066 2022-12-25 21:01:41 +08:00 我想问下为啥还能启动喷淋,是没人敢关机么,那天么的列头柜的喷了 以后问题更大 |
![]() | 17 cubecube 2022-12-25 21:16:32 +08:00 @qq723985066 我怀疑喷淋是消防系统,和空调系统没有互通。以为火灾了。。 |
![]() | 18 Tyuans 2022-12-25 21:19:37 +08:00 之前上课老师说机房都没有防火喷头的,说机器进水。看了 OVH 的火灾以为大家都这样,怎么阿里这真能给机器喷水... |
![]() | 20 CapNemo 2022-12-25 22:11:14 +08:00 猜测是机房里有人 /门开着,因此消防系统没有选择释放灭火气体而是启动了喷淋? |
![]() | 21 mytsing520 PRO @janus77 应为:制冷歇逼了,导致温度过高,然后后面一系列 GG 。 |
![]() | 22 zhs227 2022-12-25 22:47:16 +08:00 有一台轻量到第二天下午提了工单才恢复,但根据这个通告,19 号凌晨就恢复完了。表示呵呵 |
![]() | 23 KanVivii 2022-12-25 23:23:37 +08:00 ![]() @picone DC 给客户提供的 Colocation Cage/Cabinet 业务是包含 SLA 的,其中包括了电力,空调,安全等等的保障范围 所以非不可抗力情况下出现故障,DC 也是会赔偿阿里云的。保险业务可能是针对火灾这种需要重建的 |
24 ohmyzsh 2022-12-26 08:50:24 +08:00 ![]() 吹一万次,不如来一次事故,信赖 GG |
25 lyhiving 2022-12-26 09:20:54 +08:00 国外业务远离阿里云或者将阿里云当备用才是最实在的。 国内的也是尽量不要搞阿里云,出了名的套路云。然后之前宣传的 9 个九的保障,真的是渣渣。 只有当你发工单他们才说故障中,否则,你在阿里云后台看到的是机器在黑洞中,状态页面是绿色的!!!! 这个就是最恶心人的地方! |
26 salmon5 2022-12-26 09:43:23 +08:00 到目前为止,我认为能打的只有阿里云和 AWS 。试用过 azure.cn 云,难用。GCP 没账号没用过。其他的就不值一提了。 |
![]() | 27 QKgf555H87Fp0cth 2022-12-26 09:59:53 +08:00 @lyhiving 我笑死, 阿里云他们直接不回我,11 个小时后才回我,说原因和赔偿。 |
![]() | 28 gezimonkey 2022-12-26 10:28:42 +08:00 根据《建筑设计防火规范》 GB50016 规定机房应设置自动灭火系统,并宜采用气体灭火系统。气体灭火系统中,常见的有七氟丙烷灭火系统、高压二氧化碳灭火系统、ig541 混合气体灭火系统等。 这个喷淋的包间不合规了吧?要是咬着告,估计能告下不少钱或者人来 |
![]() | 29 cctv1005s927 2022-12-26 10:44:23 +08:00 @cveoy 微信公众平台啊... 作为公众渠道之一,我觉得是正常的公关渠道吧? |
![]() | 30 cctv1005s927 2022-12-26 10:49:55 +08:00 ![]() @lyhiving 国外业务首推还是 AWS 。 但国内业务我与你的观点,恰恰相反,我的观点是,在基础设施这块,反而阿里云是国内最可以信赖的厂商,如果这次的业务没有受到香港事件的影响,那么国内的服务可靠度,包括 status page 都会得到进一步的增强,阿里云有别的厂家所没有的故障经验,我反而觉得下一次遇到这种大规模长时间故障的概率会更小了。 |
![]() | 31 unco020511 2022-12-26 10:53:13 +08:00 这个影响很大啊感觉 |
![]() | 32 sunhelter 2022-12-26 10:58:43 +08:00 @gezimonkey 香港的机房,你这是国标 |
33 securityCoding 2022-12-26 11:13:01 +08:00 @unco020511 影响肯定大啊,澳门政务挂了多少服务 |
![]() | 34 AltairT 2022-12-26 11:36:44 +08:00 ![]() 我通读了全文,感觉除了机房本身设施的问题,阿里的高可用设计本身也是有问题的。C 可用区不可用居然影响到其他可用区的服务了。 |
![]() | 35 aheadlead 2022-12-26 11:38:19 +08:00 aws 那么多 livesite 没人提… |
37 aeli 2022-12-26 13:48:30 +08:00 @gezimonkey 拿 GB 国标规范去香港告,搞笑么。 |
![]() | 38 gezimonkey 2022-12-26 14:02:01 +08:00 ![]() @aeli 去问了一下相关安防及消防行业的人,虽然他们也没接触过港标的项目,但说美标和欧标也都没有机房用喷淋灭火的,大概率是机房扩建占用了一个不合规的房间;就是想说里面可能会有不合规的事,引用 GB 只是找起来比较方便,不必揪着证明我有多无知...... |
39 lyhiving 2022-12-26 14:35:04 +08:00 |
![]() | 41 bjzhush 2022-12-26 16:03:43 +08:00 通篇看下来阿里云的态度还是高高在上的,没有一点道歉的诚意,真是让人恶心 |
![]() | 42 cctv1005s927 2022-12-26 17:13:55 +08:00 lyhiving > 国内还选阿里云的都是脑抽了... 在这点上,我觉得您可以在细化一点,比如说贵司在阿里云上有多少多少业务量,买了哪些服务,因为阿里云的什么问题,导致了大概多少损失,或者是阿里云的哪里问题,让我们作为开发者觉得不爽。 这样,我们开发者在做决策购买云厂商服务的时候,可以根据您的经验避坑,您觉得呢? |
43 lyhiving 2022-12-26 17:58:13 +08:00 @cctv1005s927 不知道你要怎么样的细化。 比如 ECS 的,从经典网络到 VPC ,说转就转,完全不保留经典网络的选型。原因是内网攻击,是他们网络内部设计的缺陷,让我们不同主体间的通信变得异常复杂,后来上了 classicLink ,也是各种限制,各种掏钱。 说到 RDS ,你见过 AWS 限制小内存了吗?一直都是开放购买。某里云就不是,现在谁可以新开 256M 的 RDS ? 再说 OSS ,图片样式更换那一波,给开发者选型了吗?强硬改到 osss-style 格式下 还有快照数量,镜像数量,9 个九的承诺(这次应该是只剩下 99.9 )。 这次香港的事故你的私信收到通知了吗?有像 oneman 的 IDC 给你开个工单吐槽了吗?什么都没。尽量弱化,就是不承认错误。但是平时,推销的电话呢?一大堆。 关键时刻看技术,我觉得最简单的,买云就是买技术!某里云卖的营销,这一个点就是本质区别。 我并不是说阿里云不好,而是说,不要把它当做首选,特别是你有部分业务自研部分业务外包的情况下。 目前而言,国内就是腾讯云,百度云(真的要吹爆,实力可以,邻居不吵)都是要比某里云好太多的选择。 |
![]() | 44 mytsing520 PRO HK GOV 的数据中心专题页面,对于数据中心的选址、建设等都有要求。 这是一个总引导网页,涉及到不同的项目,如土地、建筑、电力、消防等,都有不同的专业部门负责跟进 https://www.datacentres.gov.hk 希望能有用 |
![]() | 45 cctv1005s927 2022-12-26 21:20:35 +08:00 @lyhiving 感谢分享 |
46 cnpil0txia 2022-12-27 04:30:06 +08:00 原文“但影响了香港 Region ECS 管控服务( Control Plane )的正常使用” 应为 Control Panel |
![]() | 47 realpg PRO 香港机房 笑掉大牙 喷淋都算好的了 比狗窝 还是 80 年代内地农村狗窝条件还差的 IDC 机房,香港满天飞。。。 |
48 litbin 2022-12-27 09:45:38 +08:00 @cnpil0txia 这里 Control Plane 是指管控面,对应的还有 Data Plane 数据面 |
49 shenkai600 2022-12-27 11:34:53 +08:00 有无业内人士透露一下,机房里的这个喷淋设备是标配吗 |
![]() | 50 ervqq 2022-12-27 16:37:41 +08:00 垃圾佬狂喜,一个机房的大船准备靠岸 |
51 cnpil0txia 2022-12-27 16:38:44 +08:00 @litbin 对的,谢谢 |
![]() | 52 SQLException OP @shenkai600 基本都是干粉灭火器,着火了人必须出去,然后会 boom~ |