阿里云发布香港Region可用区C服务中止事情的阐明

09-04 924阅读 0评论

以下内容转自阿里云官方,阿里云本着负责任的情绪发布了这次中止事情的完好陈述,欲了解更多产品请拜访阿里云官网:https://ourl.co/aliho


北京时刻2022年12月18日,阿里云香港Region可用区C发生大规模服务中止事情。经过复盘,咱们在这儿向咱们进一步阐明毛病状况、问题剖析和改善办法。

处理进程

12月18日08:56,阿里云监控到香港Region可用区C机房包间通道温控告警,阿里云工程师介入应急处理,告诉机房服务商进行现场排查。09:01,阿里云监控到该机房多个包间温升告警,此刻工程师排查到冷机反常。09:09,机房服务商按应急预案对反常冷机进行4+4主备切换以及重启,但操作失利,冷水机组无法康复正常。09:17,按照毛病处理流程,发动制冷反常应急预案,进行辅佐散热和应急通风。测验对冷机控制体系逐一进行阻隔和手艺康复操作,但发现无法安稳运转,联络冷机设备供货商到现场排查。此刻,因为高温原因,部分服务器开端遭到影响。

自10:30开端,为防止或许呈现的高温消防问题,阿里云工程师连续对整个机房核算、存储、网络、数据库、大数据集群进行降载处理。期间,继续屡次对冷机设备进行操作,但均不能坚持安稳运转。

12:30,冷机设备供货商参与,在多方工程师确诊下,对冷塔、冷却水管路及冷机冷凝器进行手艺补水排气操作,但体系仍然无法坚持安稳运转。阿里云工程师对部分高温包间发动服务器关机操作。14:47,冷机设备供货商对设备问题排查遇到困难,其间一个包间因高温触发了强制消防喷淋。15:20,经冷机设备商工程师现场手艺调整装备,冷机群控解锁完结并独立运转,第1台冷机康复正常,温度开端下降。工程师随后继续经过相同办法对其他冷机进行操作。18:55,4台冷机康复到正常制冷量。19:02,分批发动服务器,并继续调查温升状况。19:47,机房温度趋于安稳。一起,阿里云工程师开端进行服务发动康复,并进行必要的数据完好性查看。

21:36,大部分机房包间服务器连续发动并完结查看,机房温度安稳。其间一个包间因消防喷淋发动,未进行服务器上电。因为坚持数据的完好性至关重要,工程师对这个包间的服务器进行了细心的数据安全查看,这儿花费了一些必要的时刻。22:50,数据查看以及危险评价完结,最终一个包间根据安全性逐步进行供电康复和服务器发动。

服务影响

12月18日09:23,香港Region可用区C部分ECS服务器开端呈现停机,触发同可用区内宕机搬迁。跟着温度继续升高,受影响的服务器停机数量继续添加,客户事务开端遭到影响,影响面扩展到香港可用区C的EBS、OSS、RDS等更多云服务。

阿里云香港可用区C的毛病,没有直接影响客户在香港其他可用区运转的事务,但影响了香港Region ECS管控服务(Control Plane)的正常运用。因许多可用区C的客户在香港其他可用区新购ECS实例,从12月18日14:49开端,ECS管控服务触发限流,可用性最低跌至20%。客户在运用RunInstances/CreateInstance API购买新ECS实例时,假如指定了自定义镜像,部分实例在购买成功之后会呈现发动失利的现象,因为自定义镜像数据服务依靠可用区C的单AZ冗余版别的OSS服务,无法经过重试处理。此刻,部分Dataworks、k8s用户控制台操作也遭到了毛病影响。API彻底康复可用为当日23:11。

12月18日10:37,阿里云香港可用区C的部分存储服务OSS开端遭到停机影响,此刻客户暂不会感知,但继续高温会导致磁盘坏道,影响数据安全,工程师对服务器进行停机操作,从11:07至18:26中止了服务。阿里云在香港Region可用区C供给了2种类型的OSS服务,一种是OSS本地冗余LRS服务(一般叫单AZ冗余服务),仅布置在可用区C;另一种是OSS同城冗余ZRS服务(一般叫3AZ冗余服务),布置在可用区B、C和D。在此次毛病中,OSS同城冗余ZRS服务根本没有遭到影响。可用区C的OSS本地冗余服务中止时刻较长,因不支撑跨可用区切换,需求依靠毛病机房的康复。从18:26开端,存储服务器从头分批发动。其间,单AZ本地冗余LRS服务有部分服务器因消防问题需求做阻隔处理。康复服务前,咱们必需求确保数据可靠性,花费了较多的时刻进行完好性查验作业。直至12月19日00:30,这部分OSS服务(单AZ冗余服务)才康复了对外服务才能。

阿里云网络少数单可用区产品(如:VPN、Privatelink以及少数GA实例)在此次毛病中遭到影响。12月18日11:21,工程师发动网络产品可用区容灾逃逸,12:45完结SLB等大部分网络产品可用区容灾逃逸,13:47NAT产品完结收尾逃逸。除上述少数单可用区产品以外,各网络产品在毛病期间坚持了事务连续性,NAT有分钟级事务受损。

12月18日10:17开端,阿里云香港Region可用区C部分RDS实例呈现不可用的报警。跟着该可用区受毛病影响的主机规模扩展,呈现服务反常的实例数量随之添加,工程师发动数据库应急切换预案流程。到12:30,RDS MySQL与Redis、MongoDB、DTS等大部分跨可用区实例完结跨可用区切换。部分单可用区实例以及单可用区高可用实例,因为依靠单可用区的数据备份,仅少数实例完结有用搬迁。少数支撑跨可用区切换的RDS实例没有及时完结切换。经排查是因为这部分RDS实例依靠了布置在香港Region可用区C的署理服务,因为署理服务不可用,无法经过署理地址拜访RDS实例。咱们帮忙相关客户经过暂时切换到运用RDS主实例的地址拜访来进行康复。跟着机房制冷设备康复,21:30左右绝大部分数据库实例康复正常。关于受毛病影响的单机版实例及主备均在香港Region可用区C的高可用版实例,咱们供给了克隆实例、实例搬迁等暂时性康复计划,但因为底层服务资源的约束,部分实例的搬迁康复进程遇到一些反常状况,需求花费较长的时刻来处理处理。

咱们注意到,一起在多个可用区运转事务的客户,在这次事情中仍然能够保持事务运转。关于事务需求肯定高可用的客户,咱们继续建议您选用全链路多可用区的事务架构规划,以应对各种或许的意外事情。

问题剖析与改善办法

1、冷机体系毛病康复时刻过长

原因剖析:机房冷却体系缺水进气构成气阻,影响水路循环导致4台主冷机服务反常,发动4台备冷机时因主备共用的水路循环体系气阻导致发动失利。水盘补水后,因机房冷却体系的群控逻辑,无法单台独立发动冷机,手艺修正冷机装备,将冷机从群控调整为独立运转后,连续发动冷机,影响了冷却体系的康复时长。整个进程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑发动4台冷机耗时3小时32分钟。

改善办法:全面查看机房基础设备管控体系,在监控数据收集层面,扩展掩盖度,进步精密度,进步对毛病的排查和定位速度;在设备管控逻辑层面,确保体系主动切换逻辑契合预期,一起确保手艺切换的准确性,防止内部状况死锁然后影响毛病的康复。

2、现场处置不及时导致触发消防喷淋

原因剖析:跟着机房冷却体系失效,包间温度逐步升高,导致一机房包间温度到达临界值触发消防体系喷淋,电源柜和多列机柜进水,部分机器硬件损坏,添加了后续康复难度和时长。

改善办法:加强机房服务商办理,整理机房温升预案及标准化履行动作,清晰温升场景下的事务侧关机和机房强制关电的预案,力求更简略有用,并经过常态化演练强化履行。

3.客户在香港地域新购ECS等管控操作失利

原因剖析:ECS管控体系为B、C可用区双机房容灾,C可用区毛病后由B可用区对外供给服务,因为许多可用区C的客户在香港其他可用区新购实例,一起可用区C的ECS实例拉起康复动作引进的流量,导致可用区 B 管控服务资源缺乏。新扩容的ECS管控体系发动时依靠的中间件服务布置在可用区C机房,导致较长时刻内无法扩容。ECS管控依靠的自定义镜像数据服务,依靠可用区C的单AZ冗余版别的OSS服务,导致客户新购实例后呈现发动失利的现象。

改善办法:全网巡检,全体优化多AZ产品高可用规划,防止呈现依靠OSS单AZ和中间件单AZ的问题。加强阿里云管控平面的容灾演练,进一步进步云产品高可用容灾逃逸才能。

4、毛病信息发布不行及时通明

原因剖析:毛病发生后阿里云发动对客钉群、公告等告诉手法,因为现场冷机处理发展缓慢,有用信息不行。Status Page页面信息更新不及时引发客户困惑

改善办法:进步毛病影响和客户影响的快速评价和辨认拉取才能。赶快上线新版的阿里云服务健康状况页面(Status Page),进步信息发布的速度,让客户能够更快捷地了解毛病事情对各类产品服务的影响。

总结

最终,咱们要向全部遭到毛病影响的客户揭露致歉,并赶快处理补偿事宜。此次香港Region可用区C服务中止事情,对许多客户的事务发生严重影响,也是阿里云运营十多年来继续时刻最长的一次大规模毛病。安稳性是云服务的生命线,对咱们的客户至关重要。咱们将尽全部尽力从此次事情中汲取经验教训,继续进步云服务的安稳性,不孤负客户所托!

阿里云

2022年12月25日

发表评论

快捷回复: 表情:
评论列表 (暂无评论,924人围观)

还没有评论,来说两句吧...

目录[+]