记一次阿里云系统故障、工单处理、自行恢复和事后维权的完整经历 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
nonfu
V2EX    云计算

记一次阿里云系统故障、工单处理、自行恢复和事后维权的完整经历

  •  
  •   nonfu 2019-12-17 12:57:08 +08:00 8269 次点击
    这是一个创建于 2205 天前的主题,其中的信息可能已经有所发展或是发生改变。
    58 条回复    2019-12-18 13:03:06 +08:00
    scukmh
        1
    scukmh  
       2019-12-17 13:02:41 +08:00
    想知道怎么唬你的。最后那一段。
    wangyzj
        2
    wangyzj  
       2019-12-17 13:04:11 +08:00
    希望不是 20 个 5 元代金券
    eason1874
        3
    eason1874  
       2019-12-17 13:07:58 +08:00
    不是百倍时间赔偿吗,不算你自己操作时间,纯粹工单耽误时间都有半天了,这半天不是应该赔偿吗?
    foamvalue
        4
    foamvalue  
       2019-12-17 13:08:38 +08:00
    这么强,还能维权?
    nonfu
        5
    nonfu  
    OP
       2019-12-17 13:19:22 +08:00
    @eason1874 这种免不了扯皮 比如怎么算损失 你说你的 他说他的 不好量化 有那精力不如干点别的开心点的事情
    nonfu
        6
    nonfu  
    OP
       2019-12-17 13:21:52 +08:00
    @scukmh 她一个妹子竟然跟我聊操作系统的调用问题 我赶紧刹车 说我不想关心这些
    graceday
        7
    graceday  
       2019-12-17 13:23:09 +08:00
    阿里云最近新活动,入门级 ECS 89 元 /年,值不值得入手?买了也不知道做什么
    nonfu
        8
    nonfu  
    OP
       2019-12-17 13:23:26 +08:00
    @wangyzj 不是 那我就不能关工单了 是货真价实的 100 元代金券 有效期是一年
    vus520
        9
    vus520  
       2019-12-17 13:24:44 +08:00
    这不千万云的日常么
    nonfu
        10
    nonfu  
    OP
       2019-12-17 13:24:59 +08:00
    @graceday 那就别买了 反正这种活动经常有
    nonfu
        11
    nonfu  
    OP
       2019-12-17 13:26:17 +08:00
    @vus520 千万云是个什么梗
    nonfu
        12
    nonfu  
    OP
       2019-12-17 13:27:15 +08:00
    @foamvalue 人在家中坐 锅从天上来 不维权对不起自己熬的夜
    nandehutu
        13
    nandehutu  
       2019-12-17 13:28:35 +08:00
    基本上各家云的客服,一开始上来都是答非所问,效率很差
    okwork
        14
    okwork  
       2019-12-17 13:36:44 +08:00
    楼主心大,用云服务器,每日定期快照是基础保障
    nonfu
        15
    nonfu  
    OP
       2019-12-17 13:40:30 +08:00
    @nandehutu 因为不懂技术
    dreamerlv3ex
        16
    dreamerlv3ex  
       2019-12-17 13:41:14 +08:00
    可怜的学院君。
    opengps
        17
    opengps  
       2019-12-17 13:43:09 +08:00
    现在的工单服务量太大,确实质量不到位
    nonfu
        18
    nonfu  
    OP
       2019-12-17 13:43:32 +08:00
    @okwork 嗯 是的 主要这是个新启用的机器 一直没顾上做 现在补上了
    nonfu
        19
    nonfu  
    OP
       2019-12-17 13:44:58 +08:00
    @opengps 是的 能理解 靠人去维护的东西都会有这个问题
    shakaraka
        20
    shakaraka  
    PRO
       2019-12-17 13:55:45 +08:00
    不管怎么说还是要多备份才行,要是万一挂上去还是不能访问那就搞笑了
    ysoserious
        21
    ysoserious  
       2019-12-17 13:59:51 +08:00
    难怪昨天一整天都打不开.
    ysoserious
        22
    ysoserious  
       2019-12-17 14:00:24 +08:00
    下午.
    nonfu
        23
    nonfu  
    OP
       2019-12-17 14:04:06 +08:00
    @wunonglin 是的 这年头 连离职谈话都要多处备份
    nonfu
        24
    nonfu  
    OP
       2019-12-17 14:04:40 +08:00
    @ysoserious 争取以后不再发生这种事情了
    houzhimeng
        25
    houzhimeng  
       2019-12-17 14:19:31 +08:00
    被阿里坑过 2 次,果断选择云数据库
    nonfu
        26
    nonfu  
    OP
       2019-12-17 14:25:39 +08:00
    @houzhimeng 公司产品的建议使用云数据库了
    struggle001
        27
    struggle001  
       2019-12-17 14:37:16 +08:00   2
    @nonfu 作为一个渣渣运维分享自己的一些想法:
    1.生产环境的数据一定不要放在系统盘上(虽然阿里提供的方法可用,但是有一定的风险)
    2.数据放在数据盘(扩展盘)的前提下,定期对系统盘进行快照,如果出现类似问题,直接恢复快照,对数据不产生任何影响。也是分分钟恢复的事情。
    3.数据库数据要定时进行 sql 备份,用 bash 写定时脚本,留一个月第一天的备份 1 和近 7 天的备份。如果有条件,可以考虑异地或者 pc 本地备份。

    os 还是有一定几率会出现损坏的,或者说阿里的分布式存储出了问题,刚好影响你的系统盘(可能性很小)。所以切记不要放在系统盘数据。

    我作为云厂商的运维,出现类似问题,因为没有阿里那套恢复快照到新购磁盘的业务逻辑,我会协助他们保存系统数据,之后重置,效率肯定要比阿里快 N 呗。不过小厂商很难混下去。
    struggle001
        28
    struggle001  
       2019-12-17 14:40:25 +08:00
    @okwork 快照其实对云厂商很不友好,所以都有快照限制的。比如一个用户数据是 100G,打快照之后,所有的 100G 的数据都被修改过,那就额外占用了 100G,在加上 3 副本,实际占用我 600G 的空间。很坑啊。
    nonfu
        29
    nonfu  
    OP
       2019-12-17 14:46:23 +08:00
    @struggle001 嗯 受教 我现在就是按照你这个思路在做的 定期快照+数据库备份 并且数据库备份多处存储 避免单点故障
    struggle001
        30
    struggle001  
       2019-12-17 14:48:24 +08:00
    @nonfu 所以遇到一次问题 也挺好的。哈哈
    nonfu
        31
    nonfu  
    OP
       2019-12-17 14:51:56 +08:00
    @struggle001 是的 不出问题总以为朗朗乾坤 天下太平 有些事情总是习惯拖着
    turi
        32
    turi  
       2019-12-17 14:54:59 +08:00
    6 个多小时 才 100 块钱

    这套路不就是,一榔头加一个枣吗?

    一小时 20 块不到,果然白菜价
    ben1024
        33
    ben1024  
       2019-12-17 14:59:28 +08:00
    阿里云店大欺客的习惯
    okwork
        34
    okwork  
       2019-12-17 15:00:29 +08:00 via Android
    @struggle001 这个没办法了,快照都是增量的,永远胖下去的。瘦身的办法只好隔段时间重置后再新快照,幸好存储空间一般都不算太贵,胖就胖点吧
    nonfu
        35
    nonfu  
    OP
       2019-12-17 15:04:22 +08:00
    @turi 其他的也没办法量化 之前所在的公司千万级流量 IDC 机房断电导致服务器宕机半天 最后也是不了了之了 跟他们扯皮他们有专门的律师团队 千儿八百块钱的事情也就懒得花时间去理会了
    struggle001
        36
    struggle001  
       2019-12-17 15:04:27 +08:00
    @okwork 我公司内部用户用了我 20T 的 ssd 空间,x3 就 60T 了,我都要疯了,采购扩容中.....
    天天和他斗智斗勇....
    1239305697
        37
    1239305697  
       2019-12-17 17:59:05 +08:00
    大概意思是:磁盘出问题了,但是磁盘里的数据是正常的
    这个算不算运气好,一般不是磁盘出问题了数据就也没有了吗。。
    mmdsun
        38
    mmdsun  
       2019-12-17 18:51:18 +08:00 via Android
    想起来 IT 之家 用阿里云期间各种崩溃和反应缓慢,最后阿里只陪了 1 天。

    https://www.ithome.com/html/it/267407.htm
    avenger
        39
    avenger  
       2019-12-17 22:06:06 +08:00
    为啥不直接用 rds,ecs 上自建数据库风险很大,运行了一年的服务器你也敢重启…… 不能启动很正常,ecs 应该要做成无状态的,随时可以清掉重新部署。
    a1274598858
        40
    a1274598858  
       2019-12-17 22:15:38 +08:00
    aqqwiyth
        41
    aqqwiyth  
       2019-12-17 22:20:01 +08:00
    mysql 居然一次性恢复成功.
    mytsing520
        42
    mytsing520  
    PRO
       2019-12-17 22:56:58 +08:00
    @a1274598858
    小水管,或水管长期处于高使用率范围内
    nonfu
        43
    nonfu  
    OP
       2019-12-17 23:50:33 +08:00
    @a1274598858 还真是 应该是近期出现的 之前都是几~几十毫秒 明天看下
    nonfu
        44
    nonfu  
    OP
       2019-12-17 23:53:21 +08:00
    @avenger 贵 我这就是个个人博客而已 其实一台 2c4g 机器就够了 没必要花那个冤枉钱
    nonfu
        45
    nonfu  
    OP
       2019-12-17 23:55:58 +08:00
    才 1 天,够狠。。。
    nonfu
        46
    nonfu  
    OP
       2019-12-17 23:56:47 +08:00
    @1239305697 某个操作系统调用环节出问题而不是整个磁盘坏掉
    nonfu
        47
    nonfu  
    OP
       2019-12-17 23:58:11 +08:00
    @aqqwiyth 期间有些坎坷 坑我都绕过了 直接给了最终的指令
    nonfu
        48
    nonfu  
    OP
       2019-12-17 23:58:27 +08:00
    @mmdsun 才 1 天,够狠。。。
    akira
        49
    akira  
       2019-12-18 01:06:16 +08:00
    @nonfu 阿里的产品线里面,rds 其实算是稳定性可以的了。然而还是建议每日自己做一个数据库逻辑备份。
    生产服务器上面,最重要的事情就是
    备份!备份!备份!
    avenger
        50
    avenger  
       2019-12-18 09:25:48 +08:00
    @akira 还要异地备份才放心
    avenger
        51
    avenger  
       2019-12-18 09:26:11 +08:00
    @nonfu 比你的数据还贵吗?
    Zach369
        52
    Zach369  
       2019-12-18 09:52:25 +08:00
    建议使用 rds 吧. 我之前测试过,阿里云 ecs 上面搭建 mysql 和 mongodb 不是很稳定.
    nonfu
        53
    nonfu  
    OP
       2019-12-18 10:47:59 +08:00
    @avenger 我是在 ECS 上搭的 2c4g 3 年1500 两年前做活动的时候买的 你说便宜不便宜
    nonfu
        54
    nonfu  
    OP
       2019-12-18 10:50:58 +08:00
    @Zach369 这个等流量再翻几倍再说 毕竟就是个个人博客
    nonfu
        55
    nonfu  
    OP
       2019-12-18 10:52:00 +08:00
    @avenger 看错了 不是贵不贵的问题 是目前实在还没有必要 只是个个人博客 不是商业产品
    nonfu
        56
    nonfu  
    OP
       2019-12-18 10:55:19 +08:00
    @akira 是的 遥想当年美团挂了 饿了么还撑得住就是异地多活的功劳 咱做不了异地多活 做个多处备份 再最低价租个国外 VPS 做备份服务器还是可以的 闲时还能拿来当梯子 美滋滋
    tailf
        57
    tailf  
       2019-12-18 11:29:43 +08:00
    买 RDS 吧,不用自己运维,稳定很多。。
    nonfu
        58
    nonfu  
    OP
       2019-12-18 13:03:06 +08:00
    @tailf 但问题是本次故障并不是 MySQL 数据库故障导致 而是 ECS 的问题
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2808 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 41ms UTC 14:39 PVG 22:39 LAX 06:39 JFK 09:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86