![]() | 1 sbboy 2022-12-18 12:02:55 +08:00 进控制台都看不到机器了。。。 |
![]() | 2 mogutouer 2022-12-18 12:04:37 +08:00 ![]() VNC 连上去提示卡在 Booting from Hard Disk... 这么大的公司,这么大的事件,连个公告也不发,还要客户主动去排队等待客服回应,有没有搞错,起码要发个通知消息嘛 问了多久恢复和补偿方案,直接给我把线上对话转成工单了,也不回复我 |
![]() | 3 scukmh 2022-12-18 12:11:13 +08:00 朋友的业务全挂了。 |
![]() | 4 Features OP 感觉 HK 区和内地的服务差距很大,HK 是外包加盟的吗? |
![]() | 5 villivateur 2022-12-18 12:12:47 +08:00 难怪,我这也挂了,刚准备上 V 站发帖。香港轻量云 |
6 fds 2022-12-18 12:19:57 +08:00 影响了一些服务 |
7 darer 2022-12-18 12:22:28 +08:00 雀魂我记得是运行在阿里云 HK 上的 现在好像也挂了 |
![]() | 8 rebang 2022-12-18 12:28:22 +08:00 ![]() 已经放弃使用阿里云香港轻量云了,ping 内地机器丢包率常年 60%+。换了一家走的 CN2 路线,便宜又好用 |
![]() | 9 QKgf555H87Fp0cth 2022-12-18 12:32:15 +08:00 我以为硬盘满了,硬盘 I/O 都是 0 ,强制重启服务器都没成功,提交了工单。现在才发现我不是一个人。 |
11 cest 2022-12-18 12:33:49 +08:00 ![]() 全阳了,一个临时工误操作删库,全员头昏脑胀层层一路 confirm 下去就真删库了的可能性为? |
![]() | 12 ktqFDx9m2Bvfq3y4 2022-12-18 12:34:04 +08:00 如何看出是 C 区?我的香港轻量应用实例没问题。 |
![]() | 16 unlsycn 2022-12-18 12:42:17 +08:00 via Android 雀魂挂了.. |
![]() | 17 ZE3kr 2022-12-18 12:44:26 +08:00 via iPhone 我这里监控发现从 2022-12-18 10:49 UTC+0800 开始,阿里云香港 C 区 ECS 就炸了……还以为是我的问题。还好我这里有容灭,报警后自动就切了解析,阿里香港炸了不影响实际业务可用性 |
![]() | 18 ZE3kr 2022-12-18 12:46:15 +08:00 via iPhone 而且现在云盘打快照都是失败的,始终是 0%进度,不知道数据是否还在 |
![]() | 20 hvsy 2022-12-18 12:49:49 +08:00 同样在等恢复的苦逼运维... |
![]() | 21 bruceczk 2022-12-18 12:55:38 +08:00 +1 ,B 区的服务器还是好的,C 区的挂了 |
![]() | 22 alan0liang 2022-12-18 13:01:25 +08:00 今天早上我 hk 另一台机器连续收到了三条通知: 1. 09:25:50 阿里云 ECS-系统事件-非预期宕机开始通知: 您好!您的云服务器(实例 ID:xxx ,实例名称:xxx ,私网 IP:["172.x.x.x"])在北京时间 2022-12-18T09:24:27 出现宕机,阿里云正在进行重启恢复操作,恢复时会第一时间通知您,谢谢。 2. 09:26:16 云盘实例宕机恢复发送消息: 您好!阿里云已保障您的云服务器(实例 ID:xxx ,实例名称:xxx ,私网 IP:["172.x.x.x"])恢复运行,请检查您的应用是否正常,谢谢。 3. 09:27:51 ECS 主动运维云盘实例计划重启事件通知: 您好,我们检测到承载您的云服务器运行的物理机存在硬件异常风险,由于该风险随时可能导致实例宕机,建议您选择合适的时间通过重启该云服务器将其迁移至健康的物理机。 您可以登录阿里云 ECS 控制台,在 待处理事件 - 系统事件 标签栏中查看待处理的计划内运维事件,并根据业务需要选择立即重启实例,或预约在不晚于计划执行时间的某一时刻重启实例。 若您未对实例进行重启,且实例未因其他原因被重启,则系统大约将在 2022-12-20T01:26:58Z ( UTC+0 时区)前自动重启实例,该过程需要最长 15-20 分钟时间,迁移后 IP 地址不会发生变化。 为了确保您的业务稳定运转和数据安全,建议您在计划重启前及时备份重要数据。 不知道是不是有关系;现在这台被重启的机器还是好的,然而另外两台机器都挂了 |
![]() | 23 whywaoxaks 2022-12-18 13:03:06 +08:00 me too 同挂 |
24 beyondex 2022-12-18 13:04:07 +08:00 me too |
25 echooo0 2022-12-18 13:09:34 +08:00 看监控里面的 cpu 还以为被 D 了,但是带宽正常 结果一看阿里云后台,好家伙服务器列表都没机器了 |
![]() | 26 learningman 2022-12-18 13:30:50 +08:00 轻量也寄,还以为过期了,开控制台一看没过期就没管了 |
![]() | 28 gfdhfghfghrr 2022-12-18 13:34:38 +08:00 c 区全挂 |
![]() | 30 feiyunruyue 2022-12-18 13:35:12 +08:00 +1 ,也不知道啥时候恢复 |
![]() | 33 Alucns 2022-12-18 13:44:57 +08:00 二个多小时了还没解决。 |
35 Alan3 2022-12-18 13:56:02 +08:00 [阿里云] 尊敬的 xxx:您的云服务器 /磁盘(实例 ID:xxx ,实例名称: ixxx ,磁盘 ID:xxx )出现 IOhang 的情况。该问题有概率导致 IO 操作异常,阿里云技术团队正在处理,恢复后会第一时间通知您,谢谢。 |
![]() | 36 johnsken 2022-12-18 14:06:39 +08:00 业务严重受阻,还以为是被 D 了,结果是整区瘫痪,苦逼坐等修复 |
37 suzic 2022-12-18 14:11:28 +08:00 via Android 我博客挂了 |
38 lishenglan1992 2022-12-18 14:26:52 +08:00 挂了四个多小时了现在还没恢复,这技术也是牛逼了,客服排队排上了也没人理,难不成都被裁掉了,真是太烂了,唉 |
![]() | 39 QKgf555H87Fp0cth 2022-12-18 14:26:53 +08:00 工单 12 点到现在都没回复我。。。 |
![]() | 40 coyove 2022-12-18 14:33:30 +08:00 我知道明天周会 cto 又会 bb 同城双活 异地多活 跨国备份了 |
![]() | 41 learningman 2022-12-18 14:38:09 +08:00 @lishenglan1992 #38 估计是都阳了( |
43 mengyifan 2022-12-18 14:51:55 +08:00 via iPhone @learningman 香港早放开了 |
![]() | 44 learningman 2022-12-18 14:52:55 +08:00 @mengyifan #43 阿里云的支持在内地,只是机房是香港的 |
![]() | 46 um1ng 2022-12-18 16:26:34 +08:00 阿里云:有理由裁人了 |
47 emperinter 2022-12-18 16:33:24 +08:00 我这也挂了,目前没有任何反馈,希望数据没出啥问题。 |
![]() | 48 xzysaber 2022-12-18 16:37:12 +08:00 给我们提示是说硬盘有异常,发了很多条消息,当然也包括很多实例的。 |
![]() | 49 mogutouer 2022-12-18 16:38:55 +08:00 有没有搞错,已经过去 5 个小时了,还没修复,ECS 被停止了,无法启动 The request has failed due to a temporary failure of the server. |
50 handsome198311 2022-12-18 16:41:20 +08:00 via Android 两台轻量服务器,还是连不上,在服务器列表看不到,但有一台 wireguard 还可以连。 |
![]() | 51 snail00 2022-12-18 16:41:49 +08:00 说是机房空调坏了 |
![]() | 54 shansing 2022-12-18 16:47:33 +08:00 还等着下载我的 Steam 云存档呢…… |
![]() | 55 snail00 2022-12-18 17:13:02 +08:00 @helpxuezia 给回复的是这样, 一个机房服务器宕机, 去年华为云也这么说 |
![]() | 57 snail00 2022-12-18 17:14:36 +08:00 实测其他区域 k8s 集群创建失败, 镜像在 C 区, 从其他区域拉香港的镜像也拉不到 |
59 hcmwong 2022-12-18 17:39:00 +08:00 ![]() 阿里云太失望了. |
60 wingkwanli888 2022-12-18 17:40:41 +08:00 澳广视网站 12 月 18 日消息,澳门多个关键基础设施网站受阿里云故障影响,今日 中午起无法访问使用,包括 zf 、传媒的网站和应用程式。 澳门司警表示,网络安全事故预警及应急中心接报,因阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和 mFood 等外卖平台、以及澳门日报等本地传媒应用程式,自今日中午起暂时无法访问使用。网安中心已联系相关关键基础设施营运者并跟进。 |
![]() | 61 yanghahaha 2022-12-18 17:43:11 +08:00 澳门的两个外卖平台 mfood 和 澳觅 用的服务器就是阿里云香港的,现在整个澳门都没法点外卖了 |
![]() | 62 cai314494687 2022-12-18 17:48:16 +08:00 我的香港轻量服务器也是挂了,坑爹。 还好数据库在另外一台服务器上,挂这么久,以后不敢用了。 |
![]() | 63 feiyun260 2022-12-18 17:49:38 +08:00 谁有没有内部消息,到底是什么故障?影不影响数据安全? |
64 binbinjp0915 2022-12-18 17:50:53 +08:00 里面有不和谐东东 正在排查.... |
65 binbinjp0915 2022-12-18 17:51:12 +08:00 小心国安法哦 |
![]() | 66 yanghahaha 2022-12-18 17:51:39 +08:00 @feiyun260 目前都不清楚,阿里云也不详细解释 |
67 wingkwanli888 2022-12-18 17:52:37 +08:00 via iPhone @cai314494687 数据库和后端服务分开部署在不同的地区,不会导致读写延迟太大吗? |
![]() | 68 fengfisher3 2022-12-18 18:01:39 +08:00 听说是机房过热停机了,冷却系统有问题,现在( 18:00 )还在修复。 |
69 Zchary 2022-12-18 18:05:44 +08:00 ![]() https://status.alibabacloud.com/ 我怀疑这个 status 可能是静态页面 |
![]() | 70 sz369 2022-12-18 18:06:53 +08:00 okx 没考虑容灾 完全是币圈的一把梭风格 |
![]() | 71 feiyun260 2022-12-18 18:09:07 +08:00 网上查了下,今年 6 月 21 日也发生过一次,12 小时才处理好 |
73 sibowen 2022-12-18 18:11:16 +08:00 找不到机器,所以来 v2 ,果然 |
![]() | 75 leido 2022-12-18 18:13:10 +08:00 澳门日报网站现在都没恢复 http://www.modaily.cn/ |
76 hgc81538 2022-12-18 18:35:56 +08:00 阿里云香港地域 PCCW 机房制冷设备异常 Beijing time:2022-12-18 18:23:38 尊敬的客户: 您好!阿里云监控发现香港地域某机房设备异常,影响香港地域可用区 C 的云服务器 ECS 、云数据库 PolarDB 等云产品使用,阿里云工程师已在紧急处理中,非常抱歉给您的使用带来不便,若您有任何问题,请随时联系我们。 阿里云香港地域 PCCW 机房制冷设备异常 Beijing time:2022-12-18 18:16:16 尊敬的客户: 您好!经排查,阿里云香港地域故障确认系香港 PCCW 机房制冷设备故障所致,影响香港地域可用区 C 的云服务器 ECS 、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT 网关、VPN 网关等)等云产品使用。这一故障也影响了香港地域控制台访问和 API 调用操作,目前阿里云工程师在配合 PCCW 机房工程师加速处理,部分制冷设备正在恢复中。非常抱歉给您的使用带来不便。若您有任何问题,请随时联系我们。 阿里云香港地域 PCCW 机房制冷设备异常 Beijing time:2022-12-18 10:17:43 尊敬的客户: 您好!经排查,阿里云香港地域故障确认系香港 PCCW 机房制冷设备故障所致,影响香港地域可用区 C 的云服务器 ECS 、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT 网关、VPN 网关等)等云产品使用。这一故障也影响了香港地域控制台访问和 API 调用操作,目前阿里云工程师在配合 PCCW 机房工程师加速处理,部分制冷设备正在恢复中。非常抱歉给您的使用带来不便。若您有任何问题,请随时联系我们。 |
77 lingling47 2022-12-18 18:52:01 +08:00 @sunhuawei 那家呀 介绍一下呗 |
78 program9527 2022-12-18 19:24:44 +08:00 服务器十一点多就挂了。当时客户直接微信就发过来了。还好主要数据库做了备份同步,一个小时在新服务器还原数据库重新部署。不然真的一天损失多少客户,有多惨。 |
![]() | 79 holinhot 2022-12-18 19:24:56 +08:00 via iPhone 不是云盘系统坏了吗?如果是空调问题太热了,可以关闭部分服务器。怎么全部停摆 |
80 program9527 2022-12-18 19:26:32 +08:00 但还是部分分支业务、文件在上面。愁的啊。。。有数据库同步也算是止损了,不幸中的万幸 |
![]() | 81 Zikinn 2022-12-18 19:48:03 +08:00 轻量也没了,才知道 |
![]() | 82 void1900 2022-12-18 19:56:11 +08:00 恢复了各位 |
84 securityCoding 2022-12-18 20:02:28 +08:00 via Android k8s 多区部署的好处来了。。。 |
![]() | 85 patx 2022-12-18 20:08:33 +08:00 nezha 监控正常 |
![]() | 86 cai314494687 2022-12-18 20:17:48 +08:00 @wingkwanli888 有一点延迟,能接受 |
![]() | 87 yanghahaha 2022-12-18 20:30:21 +08:00 @holinhot 肯定没这么简单,阿里想掩盖故障的严重性;如果真的只是制冷问题,那阿里云是真的效率低,一点都不可靠 |
88 waytocode 2022-12-18 20:46:05 +08:00 哎 到这个点都没恢复,也不知道能做到什么时候能好 |
![]() | 89 bruceczk 2022-12-18 20:49:44 +08:00 还没有恢复,OSS 也是 |
![]() | 90 holinhot 2022-12-18 20:50:59 +08:00 @yanghahaha 我觉得应该也是,当年联通机房空调问题直接上了 N 个大风扇顶住。 |
![]() | 91 HAOKE 2022-12-18 21:08:05 +08:00 ...我已经被 2 个客户邮件骂了 |
![]() | 92 hisune 2022-12-18 21:41:07 +08:00 离谱他妈给离谱开门 |
![]() | 93 followNew 2022-12-18 21:44:31 +08:00 @helpxuezia #91 千万别来个客户清零 |
![]() | 94 feiyunruyue 2022-12-18 22:20:38 +08:00 还在加班,妈蛋 |
![]() | 95 learningman 2022-12-18 22:27:48 +08:00 你们都恢复了?我这还挂着呢 |
96 waytocode 2022-12-18 22:35:33 +08:00 五台 剩一台没有恢复 |
![]() | 97 swulling 2022-12-18 23:07:38 +08:00 via iPhone C 区机房空调坏了,然后服务器大规模过热关机。 就算空调恢复,一波服务器要先启动,然后恢复分布式块存储,然后再恢复其他服务。 有些机器可能一重启就启动不了了,有些块副本都丢了得等磁盘重挂,反正分布式块存储这玩意一旦出现大规模宕机,再恢复时间都是用天级别来算的。 |
![]() | 98 gogolive 2022-12-18 23:16:58 +08:00 还没恢复 |
![]() | 99 bjzhush 2022-12-18 23:50:44 +08:00 @binbinjp0915 你这造谣真是没水平,排查东西要搞到整个区不可用? |
![]() | 100 cai314494687 2022-12-18 23:56:01 +08:00 via iPhone 我发现阿里云 香港节点的 oss 也挂了,我数据库备份在上面了,不过还好前一段时间用了云数据库,逃过一劫。 |