亞馬遜AWS全球大當機 5年內3次網路中斷原因為何?

記者孫敬/編譯

亞馬遜(Amazon)旗下的雲端服務AWS(Amazon Web Services)在20日下午宣布恢復正常運作,結束了一場造成全球數千個網站服務大亂的網路中斷事件。這場災情影響包括Snapchat和Reddit在內,數個全球最熱門的應用程式和網站。

然而,AWS仍表示,部分服務仍有訊息積壓需要數小時才能完全處理完畢。

延伸閱讀:美光證實退出中國伺服器市場 聚焦海外AI需求填補營收缺口

AWS logo scaled
AWS全球網路中斷事件已經修復完成。(圖/科技島資料照)

AWS的US-EAST-1資料中心中斷,DNS故障引爆災難

AWS承載了全球無數企業的應用程式和運算流程,這次中斷使從倫敦到東京的上班族工作停擺,許多人連日常繳費、更改機票等基本任務都無法執行。在週一下午,使用者持續抱怨數位錢包Venmo和視訊通話Zoom等服務仍難以使用。

這是自去年CrowdStrike軟體故障導致醫院、銀行和機場技術系統癱瘓以來,最大規模的一次網路服務中斷事件,再次凸顯了全球互聯科技的脆弱性,且這已經是五年內,AWS位於北維吉尼亞州的US-EAST-1資料中心至少第三次導致重大網路中斷。

DNS與網路負載成這次故障主因

雖然亞馬遜未正面回應為何該特定資料中心持續受影響,但問題的核心已鎖定在Domain Name System(DNS),即網域名稱系統上。DNS故障導致應用程式無法找到AWS雲端資料庫DynamoDB API的正確位址,而DynamoDB是儲存使用者資訊和其他關鍵數據的雲端資料庫。

AWS稍早曾說明,這次中斷的根本原因來自一個底層子系統,該系統負責監控用於分散流量到多個伺服器的網路負載平衡器的健康狀況。AWS進一步指出,問題源於EC2內部網路(Elastic Compute Cloud服務),這是亞馬遜在AWS內部提供的雲端運算容量服務。

康乃爾大學教授呼籲企業應加強備援

康乃爾大學電腦科學教授Ken Birman表示,開發人員需要構建更好的容錯能力,AWS本身提供了工具,讓開發人員能夠在多個數據中心中保護自己的服務,同時,企業也可以考慮在其他雲端供應商建立備份。「當人們為了降低成本和節省開支,急著讓應用程式上線,卻忘了他們跳過了最後一步,沒有真正防範停機風險時,這些公司就是事後真正應該被審視的對象。」

AWS於太平洋時間週一下午3點(台灣週二清晨6點)過後不久,宣布所有AWS服務已恢復正常運行,但 AWS Config、Redshift 和 Connect等少數服務仍有訊息待處理,預計未來幾小時內將完成。

資料來源:Reuters

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button