昨日(11 月 27 日)9:16,阿里云部分地域云數(shù)據(jù)庫控制臺訪問異常,北京、上海、杭州、深圳、青島 、香港以及美東、美西地域受影響。
昨日晚間,阿里云就云數(shù)據(jù)庫控制臺訪問異常一事發(fā)布道歉聲明,表示經(jīng)過工程師緊急處理,訪問異常問題已于當日 10:58 恢復。
您好!北京時間 2023 年 11 月 27 日 09:16 起,阿里云監(jiān)控發(fā)現(xiàn)北京、上海、杭州、深圳、青島 、香港以及美東、美西地域的數(shù)據(jù)庫產(chǎn)品(RDS、PolarDB、Redis 等)的控制臺和 OpenAPI 訪問出現(xiàn)異常,實例運行不受影響。經(jīng)過工程師緊急處理,訪問異常問題已于當日 10:58 恢復。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯(lián)系我們。
IT之家注意到,這已經(jīng)是阿里云本月第二次控制臺服務異常,首次異常是在雙 11 結(jié)束的一天后(11 月 12 日),涉及到阿里云盤、淘寶、咸魚、釘釘、語雀等等產(chǎn)品,持續(xù)時長約 3.5 小時。
故障報告:
問題影響范圍
OSS、OTS、SLS、MNS 等產(chǎn)品的部分服務受到影響,大部分產(chǎn)品如 ECS、RDS、網(wǎng)絡(luò)等運行不受影響。
云產(chǎn)品控制臺、管控 API 等功能受到影響
問題影響時間
北京時間 2023 年 11 月 12 日 17:39-19:20
問題概況
北京時間 2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務訪問異常,工程師排查故障原因與訪問密鑰服務(AK)異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務的措施,于 18:35 開始陸續(xù)恢復,19:20 絕大部分 Region 產(chǎn)品控制臺和管控 API 恢復。
處理過程
2023 年 11 月 12 日
17:39 阿里云云產(chǎn)品控制臺訪問及管控 API 調(diào)用出現(xiàn)異常。
17:50 工程師確認故障是 AK 服務異常導致,影響云產(chǎn)品控制臺、管控 API 調(diào)用異常,以及依賴 AK 服務的云產(chǎn)品服務運行異常。
18:01 工程師定位到根因。
18:07 開始執(zhí)行恢復措施,包括修訂白名單版本、重啟 AK 服務。
18:35 杭州等 Region 開始恢復正常。
19:20 絕大部分 Region 的云產(chǎn)品控制臺和管控 API 調(diào)用恢復正常。
問題原因
訪問密鑰服務(AK)在讀取白名單數(shù)據(jù)時出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產(chǎn)品控制臺及管控 API 服務出現(xiàn)異常,同時部分依賴 AK 服務的產(chǎn)品因不完整的白名單出現(xiàn)部分服務運行異常。
改進措施
增加 AK 服務白名單生成結(jié)果的校驗及告警攔截能力。
增加 AK 服務白名單更新的灰度驗證邏輯,提前發(fā)現(xiàn)異常。
增加 AK 服務白名單的快速恢復能力。
加強云產(chǎn)品側(cè)的聯(lián)動恢復能力。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...