阿里云发布香港Region可用区C服务中止事情的阐明

09-04 924阅读 0评论

以下内容转自阿里云官方，阿里云本着负责任的情绪发布了这次中止事情的完好陈述，欲了解更多产品请拜访阿里云官网：https://ourl.co/aliho

北京时刻2022年12月18日，阿里云香港Region可用区C发生大规模服务中止事情。经过复盘，咱们在这儿向咱们进一步阐明毛病状况、问题剖析和改善办法。

处理进程

12月18日08:56，阿里云监控到香港Region可用区C机房包间通道温控告警，阿里云工程师介入应急处理，告诉机房服务商进行现场排查。09:01，阿里云监控到该机房多个包间温升告警，此刻工程师排查到冷机反常。09:09，机房服务商按应急预案对反常冷机进行4+4主备切换以及重启，但操作失利，冷水机组无法康复正常。09:17，按照毛病处理流程，发动制冷反常应急预案，进行辅佐散热和应急通风。测验对冷机控制体系逐一进行阻隔和手艺康复操作，但发现无法安稳运转，联络冷机设备供货商到现场排查。此刻，因为高温原因，部分服务器开端遭到影响。

自10:30开端，为防止或许呈现的高温消防问题，阿里云工程师连续对整个机房核算、存储、网络、数据库、大数据集群进行降载处理。期间，继续屡次对冷机设备进行操作，但均不能坚持安稳运转。

12:30，冷机设备供货商参与，在多方工程师确诊下，对冷塔、冷却水管路及冷机冷凝器进行手艺补水排气操作，但体系仍然无法坚持安稳运转。阿里云工程师对部分高温包间发动服务器关机操作。14:47，冷机设备供货商对设备问题排查遇到困难，其间一个包间因高温触发了强制消防喷淋。15:20，经冷机设备商工程师现场手艺调整装备，冷机群控解锁完结并独立运转，第1台冷机康复正常，温度开端下降。工程师随后继续经过相同办法对其他冷机进行操作。18:55，4台冷机康复到正常制冷量。19:02，分批发动服务器，并继续调查温升状况。19:47，机房温度趋于安稳。一起，阿里云工程师开端进行服务发动康复，并进行必要的数据完好性查看。

21:36，大部分机房包间服务器连续发动并完结查看，机房温度安稳。其间一个包间因消防喷淋发动，未进行服务器上电。因为坚持数据的完好性至关重要，工程师对这个包间的服务器进行了细心的数据安全查看，这儿花费了一些必要的时刻。22:50，数据查看以及危险评价完结，最终一个包间根据安全性逐步进行供电康复和服务器发动。

服务影响

12月18日09:23，香港Region可用区C部分ECS服务器开端呈现停机，触发同可用区内宕机搬迁。跟着温度继续升高，受影响的服务器停机数量继续添加，客户事务开端遭到影响，影响面扩展到香港可用区C的EBS、OSS、RDS等更多云服务。

阿里云香港可用区C的毛病，没有直接影响客户在香港其他可用区运转的事务，但影响了香港Region ECS管控服务（Control Plane）的正常运用。因许多可用区C的客户在香港其他可用区新购ECS实例，从12月18日14:49开端，ECS管控服务触发限流，可用性最低跌至20%。客户在运用RunInstances/CreateInstance API购买新ECS实例时，假如指定了自定义镜像，部分实例在购买成功之后会呈现发动失利的现象，因为自定义镜像数据服务依靠可用区C的单AZ冗余版别的OSS服务，无法经过重试处理。此刻，部分Dataworks、k8s用户控制台操作也遭到了毛病影响。API彻底康复可用为当日23:11。

12月18日10:37，阿里云香港可用区C的部分存储服务OSS开端遭到停机影响，此刻客户暂不会感知，但继续高温会导致磁盘坏道，影响数据安全，工程师对服务器进行停机操作，从11:07至18:26中止了服务。阿里云在香港Region可用区C供给了2种类型的OSS服务，一种是OSS本地冗余LRS服务（一般叫单AZ冗余服务），仅布置在可用区C；另一种是OSS同城冗余ZRS服务（一般叫3AZ冗余服务），布置在可用区B、C和D。在此次毛病中，OSS同城冗余ZRS服务根本没有遭到影响。可用区C的OSS本地冗余服务中止时刻较长，因不支撑跨可用区切换，需求依靠毛病机房的康复。从18:26开端，存储服务器从头分批发动。其间，单AZ本地冗余LRS服务有部分服务器因消防问题需求做阻隔处理。康复服务前，咱们必需求确保数据可靠性，花费了较多的时刻进行完好性查验作业。直至12月19日00:30，这部分OSS服务（单AZ冗余服务）才康复了对外服务才能。

阿里云网络少数单可用区产品（如：VPN、Privatelink以及少数GA实例）在此次毛病中遭到影响。12月18日11:21，工程师发动网络产品可用区容灾逃逸，12:45完结SLB等大部分网络产品可用区容灾逃逸，13:47NAT产品完结收尾逃逸。除上述少数单可用区产品以外，各网络产品在毛病期间坚持了事务连续性，NAT有分钟级事务受损。

12月18日10:17开端，阿里云香港Region可用区C部分RDS实例呈现不可用的报警。跟着该可用区受毛病影响的主机规模扩展，呈现服务反常的实例数量随之添加，工程师发动数据库应急切换预案流程。到12:30，RDS MySQL与Redis、MongoDB、DTS等大部分跨可用区实例完结跨可用区切换。部分单可用区实例以及单可用区高可用实例，因为依靠单可用区的数据备份，仅少数实例完结有用搬迁。少数支撑跨可用区切换的RDS实例没有及时完结切换。经排查是因为这部分RDS实例依靠了布置在香港Region可用区C的署理服务，因为署理服务不可用，无法经过署理地址拜访RDS实例。咱们帮忙相关客户经过暂时切换到运用RDS主实例的地址拜访来进行康复。跟着机房制冷设备康复，21:30左右绝大部分数据库实例康复正常。关于受毛病影响的单机版实例及主备均在香港Region可用区C的高可用版实例，咱们供给了克隆实例、实例搬迁等暂时性康复计划，但因为底层服务资源的约束，部分实例的搬迁康复进程遇到一些反常状况，需求花费较长的时刻来处理处理。

咱们注意到，一起在多个可用区运转事务的客户，在这次事情中仍然能够保持事务运转。关于事务需求肯定高可用的客户，咱们继续建议您选用全链路多可用区的事务架构规划，以应对各种或许的意外事情。

问题剖析与改善办法

1、冷机体系毛病康复时刻过长

原因剖析：机房冷却体系缺水进气构成气阻，影响水路循环导致4台主冷机服务反常，发动4台备冷机时因主备共用的水路循环体系气阻导致发动失利。水盘补水后，因机房冷却体系的群控逻辑，无法单台独立发动冷机，手艺修正冷机装备，将冷机从群控调整为独立运转后，连续发动冷机，影响了冷却体系的康复时长。整个进程中，原因定位耗时3小时34分钟，补水排气耗时2小时57分钟，解锁群控逻辑发动4台冷机耗时3小时32分钟。

改善办法：全面查看机房基础设备管控体系，在监控数据收集层面，扩展掩盖度，进步精密度，进步对毛病的排查和定位速度；在设备管控逻辑层面，确保体系主动切换逻辑契合预期，一起确保手艺切换的准确性，防止内部状况死锁然后影响毛病的康复。

2、现场处置不及时导致触发消防喷淋

原因剖析：跟着机房冷却体系失效，包间温度逐步升高，导致一机房包间温度到达临界值触发消防体系喷淋，电源柜和多列机柜进水，部分机器硬件损坏，添加了后续康复难度和时长。

改善办法：加强机房服务商办理，整理机房温升预案及标准化履行动作，清晰温升场景下的事务侧关机和机房强制关电的预案，力求更简略有用，并经过常态化演练强化履行。

3.客户在香港地域新购ECS等管控操作失利

原因剖析：ECS管控体系为B、C可用区双机房容灾，C可用区毛病后由B可用区对外供给服务，因为许多可用区C的客户在香港其他可用区新购实例，一起可用区C的ECS实例拉起康复动作引进的流量，导致可用区 B 管控服务资源缺乏。新扩容的ECS管控体系发动时依靠的中间件服务布置在可用区C机房，导致较长时刻内无法扩容。ECS管控依靠的自定义镜像数据服务，依靠可用区C的单AZ冗余版别的OSS服务，导致客户新购实例后呈现发动失利的现象。

改善办法：全网巡检，全体优化多AZ产品高可用规划，防止呈现依靠OSS单AZ和中间件单AZ的问题。加强阿里云管控平面的容灾演练，进一步进步云产品高可用容灾逃逸才能。

4、毛病信息发布不行及时通明

原因剖析：毛病发生后阿里云发动对客钉群、公告等告诉手法，因为现场冷机处理发展缓慢，有用信息不行。Status Page页面信息更新不及时引发客户困惑。

改善办法：进步毛病影响和客户影响的快速评价和辨认拉取才能。赶快上线新版的阿里云服务健康状况页面（Status Page），进步信息发布的速度，让客户能够更快捷地了解毛病事情对各类产品服务的影响。

总结

最终，咱们要向全部遭到毛病影响的客户揭露致歉，并赶快处理补偿事宜。此次香港Region可用区C服务中止事情，对许多客户的事务发生严重影响，也是阿里云运营十多年来继续时刻最长的一次大规模毛病。安稳性是云服务的生命线，对咱们的客户至关重要。咱们将尽全部尽力从此次事情中汲取经验教训，继续进步云服务的安稳性，不孤负客户所托！

阿里云

2022年12月25日