亞馬遜AWS大當機的原因找到了:技術人員「打錯字」 - 數位時代

文章推薦指數: 80 %
投票人數:10人

亞馬遜今日公布28日造成全球上千個網路故障的雲端服務事故調查報告,原因在於技術人員例行維修系統時「打錯字」的人為疏失。

新聞 最新新聞數位專題熱門圖解專家觀點 主題分類 前端科技5G通訊AI與大數據電動車/交通科技物聯網區塊鏈能源環保服務消費新零售金融科技服務創新產業應用半導體與電子產業醫療生技資訊安全智慧城市智慧製造雲端運算與服務數位生活3C生活遊戲/電競影音/新媒體教育/人文企業職場商業經營創新創業行銷與Martech職場/工作術程式開發產業動態 數位行銷學院 課程一覽企業內訓團票預購 品牌活動 社群活動未來商務展MeetTaipei 品牌社群 未來商務Meet創業小聚 雜誌 最新出刊訂閱優惠關於我們內容轉載規範服務條款與隱私權政策廣告刊登場地租借徵才聯絡我們客服信箱:[email protected]服務時間:週一~週五09:00-12:00;13:30-17:0010694台北市光復南路102號9樓aboutus|廣告刊登|場地租借|內容授權 新聞 專題 社群 活動課程雜誌調查所Podcast登入/ 註冊熱門新聞活動會員Podcast Shutterstock 亞馬遜AWS大當機的原因找到了:技術人員「打錯字」2017.03.03Amazon張庭瑜亞馬遜今日公布28日造成全球上千個網路故障的雲端服務事故調查報告,原因在於技術人員例行維修系統時「打錯字」的人為疏失。

亞馬遜雲端資料儲存服務S3(AmazonSimpleStorageService)位於美國維吉尼亞州北部的資料中心,本周二出現大規模故障,波及Giphy、Medium、Slack、Quora等上千家使用亞馬遜雲端服務(AWS)儲存資料和提供線上服務網站,歷經4小時才搶修完成。

亞馬遜今日公布事故調查報告,造成上千個網站停擺的原因,全都只因技術人員「打錯字」。

技術人員打錯字,意外關閉大量伺服器根據亞馬遜說明,28日上午,一名技術人員正在進行例行維修,其中一個步驟便是關閉S3子系統下的少量伺服器。

「不幸的是,其中一條指令輸入錯誤,導致意外關閉比預期還多的伺服器。

」亞馬遜解釋。

正巧,在那些被關閉的伺服器,有些負責處理S3子系統的和資料檢索和儲存功能,被移除後相關服務皆無法執行,也導致AWS無法正常運作,需要重新啟動才能回復設定。

系統規模大且許久未重啟,導致系統重啟耗時長不過亞馬遜表示,按照S3子系統的設計,就算發生重大故障被移除,也不至於對客戶造成影響,只要重新開啟子系統,就能簡單回復這名員工的疏失。

至於這次為何耗費4小時才解決問題,亞馬遜表示,AWS已經好幾年沒真正重啟這些子系統,且S3的資料量也成長許多,電腦光是跑安全檢查和驗證底層後設資料(metadata)的完整性就花了不少時間,因此重啟系統時間比預期的還久。

亞馬遜增設安全機制、避免快速關閉大量伺服器為了避免類似情形再發生,亞馬遜表示,它們目前使用移除容量的工具「允許太多容量可於短時間內移除」,因此,未來他們將調整,讓工具移除容量的速度變更慢,並增加安全檢查機制,防止移除超過子系統正常運作所需的最小容量。

此外,它們也將把S3子系統拆成更小的單位,以縮短系統回復所需時間。

尷尬的是,在這次事件中,用來追蹤AWS運作狀況的「服務健康檢查(ServiceHealthDashboard)」網站也受到S3故障而停擺,導致亞馬遜只能在Twitter上更新搶修狀況。

亞馬遜在報告中也保證未來S3故障、該網站將能正常運作。

「我們希望向所有受到此事件影響的客戶道歉。

我們將盡所有努力在這次的事件學習,並進一步改善我們服務的可用性。

」亞馬遜說。

資料來源:Amazon、TechCrunch、TheVerge、Engadget122億美元AWS2016年全年營收為122億美元(約新台幣3,789億元)。

數字焦點延伸閱讀●亞馬遜雲端服務故障,波及蘋果AppStore、Slack等多家網站 關鍵字:#亞馬遜#伺服器#AWS#雲端技術與服務本網站內容未經允許,不得轉載。

往下滑看下一篇文章 追蹤我們 BnextMedia媒體群|數位時代經理人ShoppingDesign創業小聚未來商務 ©2021BusinessNextMediaCorp.All RightsReserved.106台北市大安區光復南路102號9樓



請為這篇文章評分?