科技浪|大家都高估了!其實一次 AI 推論的能耗跟傳統 Google Search 差不多?解讀最新AI能源報告
本集主要聚焦於人工智慧(AI)的能源消耗議題,特別是解讀 Google 最新發佈的 AI 能源報告。講者闡述了一個核心觀點:大眾和媒體普遍嚴重高估了 AI 推論(inference)的能耗和環境影響。根據 Google 對 Gemini 模型的生產環境測試數據,一次中位數的推論僅消耗 0.24 瓦時,與傳統 Google 搜尋的能耗大致相當,遠低於先前廣泛引用的過時數據(2.9瓦時)。報告同時提供了碳排放和用水量的指標,強調 Google 能實現極低能耗,是歸因於他們擁有從底層晶片(TPU)到軟體框架的完整且高效的 AI Inference Stack,以及運用如批次處理(batching)和推測解碼(speculative decoding)等優化技術。雖然推論的能耗很低,但講者指出,AI 訓練階段的能耗仍然巨大,並探討了全球在建大型數據中心的電力需求(如 1GW 級別),最後藉此引申出中美在 AI 競賽中能源基礎設施(特別是核能)競爭的重要性。
本集重點整理:
重點一:Google Gemini 推論能耗遠低於預期
Google 發布了迄今為止最全面、最可靠的 AI 能源報告,直接測量其 Gemini 模型在真實生產環境中的能耗與環境影響。該評估涵蓋了整個系統,包括 TPU、CPU、RAM、閒置機器的用電、冷卻系統及其他所有開銷。結果顯示,一次中位數的 Gemini 提示僅消耗 0.24 瓦時 (Wh) 的電量。這項數據基本上與傳統的 Google 搜尋查詢能耗相當,並遠低於此前國際能源署 (IEA) 報告中廣為引用的 2.9 Wh 數字,實際能耗相差了約 10 倍。在環境影響方面,單次查詢的碳排放量為 0.03 克 CO2,約等於一次人類呼吸的碳排;用水量則只有 0.26 毫升,大約是五滴水的量。這些數字說明人們普遍對 AI 推論的能耗存在嚴重高估。
重點二:舊有 AI 能耗報告因技術飛躍而過時
大眾對 AI 能耗的普遍認知常引用 IEA 報告中「ChatGPT 一次查詢需花費 Google 搜尋十倍能量」(即 2.9 Wh)的說法。主持人認為,雖然 IEA 報告本身可信且公正,但問題在於其發布時間與 AI 技術爆炸性的進步速度之間存在落差。在報告發布後的一年半到兩年期間,AI 效率可能提升 1000 倍。因此,該舊數據在現今來看已嚴重高估了實際能耗。此外,學術研究通常無法取得大規模生產環境的真實數據,只能在受控的小規模環境(如單一 GPU 或單一提示)下測試。只有像 Google 這樣大規模運營 AI 的公司,才能夠在數百萬使用者使用 Gemini 的真實狀況下,提供包含所有系統組件的最全面且準確的能耗數字。
重點三:Google 憑藉垂直整合堆棧實現超高效率
Google 能夠達到 0.24 Wh 的極低推論能耗,歸功於其完整的 AI 推論堆棧(AI Inference Stack)。Google 幾乎所有組件都自主研發或主導開源,從底層的 TPU Iron Wood 第七代(專為推論設計,相較初代的 TPU 能源效率提升了 30 倍)、編譯器 Open XLA、到程式框架 Jax 及 Gemini 模型本身。這種從晶片到軟體的垂直整合,使得 Google 能夠針對其工作流程進行最優化。此外,Google 在推論時期使用了多項優化技術,包括將多個使用者提示集中處理的 Batching、利用小模型預測答案再由大模型驗證的 Speculative Decoding、將瓶頸不同的 Prefill(理解提示,算力密集)與 Decode(生成答案,頻寬密集)分開處理的 Disaggregated Serving,以及提升注意力機制運算效率的 KV Cashing。
重點四:AI 訓練極耗能,引發中美能源基礎設施競賽
儘管 AI 推論能耗極低,但 AI 訓練卻是完全不同量級的能源消耗。訓練過程中每個 Token 處理所需能耗是推論的三倍以上,且涉及耗能巨大的數據搬移(如 All Reduce 步驟)。目前全球科技巨頭的短期目標是建立 1GW 級別的 AI 訓練超級電腦(如 Meta 的 Hyperion、XAI 的 Colossus 2、OpenAI 的 Stargate 計畫)。1GW 的功率約等於台灣 200 萬家戶一天的用電量,且這僅是第一階段目標。在這場能源競賽中,美中兩國是全球唯一的相關參與者。中國擁有強大的能源優勢,包括發電能力擴張速度極快(去年一年增加 400GW,美國僅數十 GW)、法規壁壘低、審核快速(三到六個月)以及電網基礎設施更新更先進。美國則面臨法規壁壘,但政府和科技巨頭已意識到此問題,並積極投資核能項目(如 SMR)以應對能源需求。