Google Cloud全球大當機調查報告出爐承諾強化系統韌性

2025-06-17

記者孫敬／編譯

Google針對上週四（6月13日）發生的Google Cloud全球性服務大中斷事件，已於週五晚間發布一份詳細事故報告，並公開致歉。Google坦承，此次長達數小時的停機，是由於近期「多層更新錯誤」所導致，影響範圍遍及全球70多項Google雲端服務，連帶使包括Cloudflare、OpenAI和Shopify等數十家第三方服務以及Gmail、Google日曆、Google雲端硬碟等Google自家產品都受到影響。

延伸閱讀：Google Cloud全球大當機！Spotify、Discord等多家業者受波及

Thomas Kurian CEO of Googles cloud scaled — Google Cloud執行長Thomas Kurian。（圖／Thomas Kurian X）

系統更新失誤，空白條目引發連鎖崩潰

「我們對這次中斷造成的影響深感抱歉。Google Cloud的客戶和他們的用戶將業務託付給Google，我們將做得更好。我們不僅對客戶業務及其用戶造成的影響感到抱歉，也對我們系統的信任造成的影響感到抱歉。我們承諾將改進，以避免未來再次發生此類中斷。」Google Cloud執行長Thomas Kurian也在社群平台X上發文，表示對客戶造成的不便感到遺憾。

根據Google的事故報告，問題根源在於今年5月為「配額政策檢查」（Quota Policy Check）系統新增的一項功能，該功能用於評估自動化傳入請求。然而，這項新功能在發布時並未經過充分的運作測試。導致Google的系統未能正確處理來自該新功能的數據，其中包含了許多「空白條目」（blank entry）。這些空白條目隨後被發送到所有Google Cloud資料中心區域，進而引發了系統崩潰。

儘管Google指出工程師在10分鐘內便找到了問題根源，但由於系統崩潰導致某些大型區域超載，整個中斷事件卻持續了長達七小時才逐步恢復。Google也坦承，在發布該功能時，並未採用業界日益普遍的「功能旗標」（feature flags）做法，這種做法允許緩慢實施新功能，以最大程度地減少問題發生時的影響。Google回應，如果當時有使用功能標誌，就能在功能廣泛可用之前發現此問題。

為避免未來再次發生類似事件，Google強調將會改變其系統架構，即使其中一個系統發生故障，也能在不導致全面崩潰的情況下繼續運行。此外，Google也將對所有系統進行全面審核，並改進其自動化和人工溝通機制，以確保客戶能盡快獲得所需資訊，及時應對問題。

資料來源：CNBC

標籤

2025-06-17

Google Cloud全球大當機調查報告出爐承諾強化系統韌性

系統更新失誤，空白條目引發連鎖崩潰

推薦工作

發佈留言取消回覆

AI大浪淘沙，卻把人類的差異也一併沖走了｜專家論點【張瑞雄】

時間管理中的「墨菲定律」靠3招發生錯誤也能迅速止損

睡不好其實還有這些原因！營養師揭「3大隱形咖啡因」恐是幕後元凶

Agentic AI重構行銷底層邏輯！AMT發佈MarTech 7.0：B2AI決策自動化時代來了

晧揚環境科技2026擴編！核心團隊招募創新永續人才

最新科技新聞快訊不錯過!!

系統更新失誤，空白條目引發連鎖崩潰

推薦工作

延伸閱讀

零跑A05進軍歐洲市場 主打低價策略挑戰在地品牌

企業設置50座以上充電樁 員工電動車普及率逼近三成

BMW全新i3登場 續航上看440英里、Neue Klasse純電戰力升級

亞馬遜收購瑞士新創Rivr！機器人能爬樓梯送貨

中國業者布局拉美充電市場 擬2030年前建置30萬座電動車充電樁

特斯拉開放企業場域超充系統 搶充電生態主導權

發佈留言 取消回覆

零跑A05進軍歐洲市場主打低價策略挑戰在地品牌

企業設置50座以上充電樁員工電動車普及率逼近三成

BMW全新i3登場續航上看440英里、Neue Klasse純電戰力升級

中國業者布局拉美充電市場擬2030年前建置30萬座電動車充電樁

特斯拉開放企業場域超充系統搶充電生態主導權

發佈留言取消回覆