科技浪|Google 挑戰 NVIDIA 霸權的開始?深度解析 TPU

本集節目在探討 Google 自研的 TPU(張量處理單元) 如何在 AI 運算領域挑戰 NVIDIA 的霸權。主持人首先分析了 Google 憑藉全自研晶片訓練出 Gemini 3 模型的實力,並引用 Meta 與 Anthropic 擴大採購 TPU 的消息,說明市場已開始認可其作為 NVIDIA GPU 替代方案 的潛力。內容深入淺出地對比了兩者的技術底層,指出 TPU 採用類似流速線的 脈動陣列(Systolic Array) 架構,雖然彈性較低,但在處理特定 AI 任務時擁有更高的 能源效率與成本優勢。最後,作者強調雖然 NVIDIA 擁有強大的軟體生態系與硬體靈活性,但 Google 正透過開放 Palace 程式語言與優化軟體層來降低門檻,預示未來 AI 晶片市場將進入更激烈的競爭格局。

本集重點整理:

重點一:核心設計理念與運作原理的差異:人海戰術 vs. 自動化流水線
GPU 採用的是 SIMT(單指令多執行緒) 架構,其概念類似於「人海戰術」,由數萬個運算核心(如 CUDA core)組成,讀取指令後指揮大量核心平行處理任務。在處理矩陣乘法時,GPU 的每個核心都有獨立的暫存器(抽屜),運算過程需不斷存取印章(權重),導致頻繁的資料存取與能耗。相對地,TPU 基於「脈動陣列(systolic array)」設計,概念源自心臟脈動,像是一座「自動化流水線工廠」。資料從左側流入,經過預先加載權重的運算單元(MXU)進行加工後直接傳遞給下一站,無需頻繁回到暫存器存取資料。這種設計讓 TPU 在處理特定 AI 運算時,比 GPU 更有效率且更節省能源。

重點二:軟體生態與開發靈活度的進化:從僵硬到逐步開放
長期以來,GPU 憑藉 2006 年推出的 CUDA 平台建立起強大的生態系,具備極高彈性,能處理各類不規則或實驗性的運算架構。TPU 過去則顯得較為僵硬,高度依賴 XLA 編譯器,若編譯器不支援,開發者便難以優化。然而,Google 近年推出 Pallas 語言(可視為 TPU 版的 CUDA),允許開發者繞過編譯器編寫底層自定義核心(custom kernels),大幅提升了可程式化性。此外,針對當前主流的 MoE(混合專家模型),TPU 也透過 Sparse Cores 處理稀疏性問題,證明其能跑動如 Gemini 3、Llama 3 及 DeepSeek 等最前沿模型。雖然生態系廣度仍不及 CUDA,但其軟體層正快速追趕。

重點三:系統級互連技術與成本優勢:ICI 與 OCS 的強大競爭力
在 AI 時代,硬體競爭已演變為「系統對抗」。NVIDIA 擁有 NVLink 與 InfiniBand 技術,而 Google 則發展出 ICI(晶片間互連) 與 OCS(光路交換機) 技術。OCS 具備全光傳輸特性,效率高且成本低。根據來源,TPU 的系統連接能力甚至比 NVIDIA 更早布局水冷與大規模擴展,單一 Superpod 可連結高達 9216 個 TPU,且連結速度相當快。分析機構指出,在相同的運算效能下,TPU Ironwood(V7)系統的成本比 NVIDIA GB200 低了約 44%。儘管 TPU V7 在資料精度支援上(僅至 8-bit)略遜於原生支援 FP4 的 GB200,但其系統整體的性價比與可預測性使其成為不可忽視的對手。

重點四:市場格局變動與 NVIDIA 的威脅感
過往市場認為 TPU 僅限 Google 內部使用,但近期 Google 積極向外推廣,成功吸引 Anthropic 購買 100 萬張 TPU,且 Meta、Apple、OpenAI 及 XAI 等科技巨頭也開始考慮或大規模採用。這一趨勢反映在數據上,Anthropic 的運算力佔比中,TPU 已提升至近 20%,而 NVIDIA 的佔比則在下降。NVIDIA 顯然感受到了威脅,除了罕見發文強調 GPU 的不可替代性外,甚至傳出透過「投資 OpenAI」等方式變相降價,以阻止客戶流向 TPU。專家預期短期內 TPU 將持續侵蝕 NVIDIA 約 10% 的營收。Google 內部對於是否要全面開放 TPU 銷售仍有轉型期的考量,但若決定 All-in 銷售,將對 NVIDIA 的霸權構成長期挑戰。

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button