Google Cloud全球大當機調查報告出爐 承諾強化系統韌性

記者孫敬/編譯

Google針對上週四(6月13日)發生的Google Cloud全球性服務大中斷事件,已於週五晚間發布一份詳細事故報告,並公開致歉。Google坦承,此次長達數小時的停機,是由於近期「多層更新錯誤」所導致,影響範圍遍及全球70多項Google雲端服務,連帶使包括Cloudflare、OpenAI和Shopify等數十家第三方服務以及Gmail、Google日曆、Google雲端硬碟等Google自家產品都受到影響。

延伸閱讀:Google Cloud全球大當機!Spotify、Discord等多家業者受波及

Google Cloud執行長Thomas Kurian。(圖/Thomas Kurian X)

系統更新失誤,空白條目引發連鎖崩潰

「我們對這次中斷造成的影響深感抱歉。Google Cloud的客戶和他們的用戶將業務託付給Google,我們將做得更好。我們不僅對客戶業務及其用戶造成的影響感到抱歉,也對我們系統的信任造成的影響感到抱歉。我們承諾將改進,以避免未來再次發生此類中斷。」Google Cloud執行長Thomas Kurian也在社群平台X上發文,表示對客戶造成的不便感到遺憾。

根據Google的事故報告,問題根源在於今年5月為「配額政策檢查」(Quota Policy Check)系統新增的一項功能,該功能用於評估自動化傳入請求。然而,這項新功能在發布時並未經過充分的運作測試。導致Google的系統未能正確處理來自該新功能的數據,其中包含了許多「空白條目」(blank entry)。這些空白條目隨後被發送到所有Google Cloud資料中心區域,進而引發了系統崩潰。

儘管Google指出工程師在10分鐘內便找到了問題根源,但由於系統崩潰導致某些大型區域超載,整個中斷事件卻持續了長達七小時才逐步恢復。Google也坦承,在發布該功能時,並未採用業界日益普遍的「功能旗標」(feature flags)做法,這種做法允許緩慢實施新功能,以最大程度地減少問題發生時的影響。Google回應,如果當時有使用功能標誌,就能在功能廣泛可用之前發現此問題。

為避免未來再次發生類似事件,Google強調將會改變其系統架構,即使其中一個系統發生故障,也能在不導致全面崩潰的情況下繼續運行。此外,Google也將對所有系統進行全面審核,並改進其自動化和人工溝通機制,以確保客戶能盡快獲得所需資訊,及時應對問題。

資料來源:CNBC

瀏覽 138 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button