狡兔务必三窟阿里云香港可用区C宕机的教训 - 介绍 - 香港香港 - Powered by BBS!NT

我的中心

香港 » 常识 » 诊断 » 狡兔务必三窟阿里云香港可用区C宕机的教训

返回列表

发新话题

回复该主题

查看: 6\|回复: 0	狡兔务必三窟阿里云香港可用区C宕机的教训 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别乞丐生日帖子-178 积分-1957 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2025-06-07 21:27 \|只看楼主白癜风医院有哪些 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/ 自12月18日阿里云香港可用区C因为机房水冷机组出现故障，导致一次阿里云历史上最长的宕机后，官方终于在圣诞节那天，出具了一份非常翔实的调查报告《关于阿里云香港Region可用区C服务中断事件的说明》，称得上是实事求是面对问题了。我从业十五年，参与建设过个节点的私有云，也搞过机房装修和上架，还有一点运维经验，算是有相关经验，跟大家讨论一下以后自家单位的容灾应该怎么做吧。大家先看这次阿里云宕机事故的重点时间线，8点56就发现机房温控告警了，然后9点01就正确定位到制冷异常了。这个问题阿里云没有隐瞒的必要，因为机房突然升温，只能是空调（冷机）故障了。这个事故的主要原因，就是因为制冷设备整整10个小时不能恢复工作，机房升温太快，工程师为了保护数据，只能逐步关机。次要原因是，在关机后还是有某个包间因为温度过高导致喷淋装置启动。手机和电脑不能进水都已经是常识了，服务器上淋了水那还得了？再次原因，就是阿里云香港Reigon的架构设计，同样没有遵循自己提到的「全链路多可用区的业务架构设计」，新扩容的ECS管控系统启动时依赖的中间件服务部署在可用区C机房，导致可用区C一旦宕机，扩容服务也启动不了。相信后续阿里云一定会全网巡检，整体优化多可用区高可用设计，避免制造单点故障，类似依赖OSS单AZ和中间件单AZ的问题，再次出现就说不过去了。第四个原因，是对于云服务来说，高可用架构能够保障是某几台物理服务器（ECS、OSS、RDS）因为故障宕机时，原来的应用可以漂移到同一个AZ（可用区）的其他服务器上，保证服务的连续性和数据的可用性。但是原有复杂的分布式架构在一个AZ（可用区）整体出现网络、服务器、存储全部下线的时候，国内没有厂家敢于承诺%实现全量无伤漂移到其他可用区，或者其他机房的。打个比方，如果把中国大陆看成一个CN可用区，那么当武汉或者上海出现疫情的时候，是能够把病人疏散到其他城市去治疗，缓解自身医疗压力的。但是当举国上下都遭遇新冠的时候，病人还能往哪送？阿里云这次遭遇的是一个AZ（可用区）整体下线，里面近千个机柜、上万台设备的数据，又能切换到哪里？第五个原因，是对极小概率事件的应急预案，是没法考虑得那么周详的，甚至完全考虑不到。比如谁能提前考虑服务器被喷淋装置喷水导致损坏的场景？谁能考虑一个主备配置4+4的水冷机组，能够同时出现故障，修好却需要10个小时？第六个原因，是对于一个巨型系统来说，有能力搞清楚里面所有的细节的总工程师，一定在新项目上，绝不是去搞运维浪费人才。其他的成员都是分模块承担任务的，他们只能选择信任其他模块。例如搞数据库（RDS）的同学
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题