AWS公布上周大規模故障原因:自動化擴充容量造成網路設 ...
文章推薦指數: 80 %
針對美東服務區域在12月7日發生長達7小時的故障,AWS發現問題出在一個自動化的容量擴充程序導致網路設備過載.
移至主內容
按讚加入iThome粉絲團
文/陳曉莉
|
2021-12-13發表
圖片來源: AWS
AWS(AmazonWebServices)美東US-EAST-1服務區域在太平洋標準時間(PST)周二(12/7)上午7:30(臺北時間7日晚上11:30)出現故障,而且一直到PST當天下午2:22分(臺北時間8日上午6:22分)才排除問題,延續了近7個小時,AWS在10日公布了詳細的故障原因,指出是因為一個自動化的容量擴充程序導致網路設備過載而造成的意外事件。
根據AWS的說明,大多數的AWS服務與客戶的應用都是在主要的AWS網路上運作,但AWS還運用一個內部網路來代管許多基本服務,像是監控、內部DNS、授權服務或是部份的EC2控制平面。
由於在內部網路中執行的服務非常重要,因此AWS利用多個於地理上隔離的網路設備來連結內部網路,同時還會擴充此一網路的容量來確保網路連結的高可用性。
這些網路設備用來提供額外的路由及網路位址的轉換,以支援各種AWS服務在主要網路及內部網路之間的通訊。
意外的發生始於PST時間上午7:30,AWS主要網路上的某個AWS服務進行自動化的容量擴充,觸發了內部網路大量客戶端的意外行為,造成主要網路與內部網路的連線活動激增,而讓網路設備不堪負荷,導致這兩個網路之間的通訊延誤。
延誤的通訊帶來更多的延遲與錯誤,也造成系統不斷重試,使得連結這兩個網路的設備持續出現擁塞與效能問題。
事實上,AWS客戶的負載並未直接受到此一網路問題的影響,因為AWS的主要網路並未出現問題,但只要是必須連結到內部網路的服務幾乎都受到波及。
舉例來說,EC2實例並未受到影響,但要透過位於AWS內部網路的EC2控制平面來發布新實例的任務就會遇到錯誤;要存取AmazonS3及DynamoDB也是正常的,但若透過VPCEndpoints存取則會遭遇問題;既有的容器可正常運作,但使用Fargate、ECS與EKS等容器服務則會出錯。
此外,由於內部網路代管了監控服務,使得此一意外不僅波及AWS的CloudWatch監控服務,令用戶無法存取服務健康儀表板,還讓AWS在第一時間無法辨識問題的所在。
AWS指出,因其內部團隊無法存取即時的監控資料,只好仰賴日誌來辨識與追蹤問題,並率先將內部的DNS流量移出,減少網路擁塞的狀況,再陸續移除其它流量以減輕網路設備的負荷,同時新增其它的網路能力。
花了快7個小時的時間才解決,AWS提出了3個原因,一是網路擁塞同時也限制了內部團隊尋找問題的能力,其次是內部系統也受到波及,第三則是主要網路上的服務是正常的,必須很謹慎才能在恢復服務時,不影響這些正常運作的任務。
這起意外除了讓AWS暫時關閉並重新設計擴充活動外,也使得該平臺決定於明年初發表全新的服務健康儀表板,以及全新的支援系統架構,以強化與客戶之間的聯繫。
熱門新聞
ApacheLog4j再釋出2.17版,修補DoS漏洞
2021-12-20
WebSocket成Log4j漏洞攻擊新管道,連不對外網路主機也曝險
2021-12-21
東元與旗下東捷資訊遭駭客網路攻擊,部分資訊系統受影響
2021-12-20
新的無檔案惡意程式DarkWatchman以Windows登錄檔作為藏身之處
2021-12-20
微軟呼籲用戶儘快修補11月公布的兩個WindowsAD漏洞
2021-12-21
CISA釋出掃瞄Log4j漏洞工具
2021-12-23
【資安日報】2021年12月20日,Log4Shell出現新的阻斷服務漏洞、勒索軟體Conti鎖定VMwarevCenter發動攻擊
2021-12-20
比利時國防部證實系統因Log4j漏洞遭駭
2021-12-21
Advertisement
2021iThome鐵人賽
專題報導
AWS2022新戰略
臺灣製造!世界第一物件偵測AI
Nvidia2022新戰略
臺灣第一輛自駕貨車上路
Line2021AI生產力大改造
更多專題報導
延伸文章資訊
- 1對EC2 執行個體進行故障診斷
進行執行個體的故障診斷。 ... 如需關於Windows 執行個體的其他說明,請參閱Windows 執行個體的Amazon EC2 使用者指南中的Windows 執行個體故障診斷。
- 2L1 終端故障推測執行問題 - Amazon AWS
Intel 已發佈有關新旁路分析方法的安全建議(INTEL-SA-00161),其中涉及其稱為「L1 終端故障」(L1TF) 的處理器。AWS 已設計並實作其基礎架構,內含對這些攻擊類型的 ...
- 3AWS 故障注入模擬器
在AWS 上執行受控的故障注入實驗,透過AWS 故障注入模擬器,改善應用程式效能、復原力和可用性.
- 4亞馬遜AWS大當機的原因找到了:技術人員「打錯字」 - 數位時代
亞馬遜今日公布28日造成全球上千個網路故障的雲端服務事故調查報告,原因在於技術人員例行維修系統時「打錯字」的人為疏失。
- 5AWS 故障服務中斷數小時,多個網站與應用程式受影響
亞馬遜雲端運算服務(Amazon Web Services,AWS)是亞馬遜的網路基礎設施服務,也是許多網站以及應用程式的骨幹,但在25 日經歷數小時的中斷,影響 ...