【Error】阿里全系产品崩了

阿里全系产品崩溃事件是由于阿里云的对象存储服务(OSS)出现故障,导致多个阿里系产品受到影响,故障持续数小时后逐步恢复。

事故范围与影响

此次故障影响了多个阿里系产品,包括淘宝、闲鱼、阿里云等,相关话题一度登上微博热搜。

【Error】阿里全系产品崩了

事故时间线

17:44:阿里云工程师发现BUG并开始排查。

19:20(故障发生96分钟后):阿里云发布消息称已分批重启组件服务,绝大部分地域控制台服务恢复访问。

22:30(三个多小时后):阿里云称受影响的云产品均已恢复,部分数据(如监控、账单等)可能存在延迟推送情况,但不影响业务运行。

【Error】阿里全系产品崩了

故障原因

故障源于阿里云的对象存储服务(OSS),该组件出现故障后拒绝了所有认证请求,导致所有使用该组件的产品调用异常。

【Error】阿里全系产品崩了

OSS的作用与可靠性

OSS是阿里云提供的对象存储服务,主要用于存储非结构化数据(如图片、视频、文档等),以稳定可靠和易于扩展著称。

大型应用通常要求服务可用性至少达到99.99%(即一年内异常时间不超过53分钟),而此次故障持续96分钟,远超这一标准,对阿里云的年度可用性造成较大影响。

【Error】阿里全系产品崩了

事件后续影响

故障修复后,相关话题仍占据微博热榜榜首,引发广泛讨论。

用户对阿里云的服务提示机制提出批评,认为提示信息不够清晰。

【Error】阿里全系产品崩了

经验与启示

服务高可靠性是相对概念,底层组件故障可能影响整个系统,需通过服务降级、熔断等机制提升韧性。

阿里云此前曾因语雀故障为用户提供补偿(如6个月会员),此次事件的处理策略值得关注。