微軟AI超級工廠啟用!跨州連線零延遲、能跑超大型AI任務

記者鄧天心/綜合報導

美國科技大廠微軟(Microsoft)近日宣布,啟用首座「人工智慧超級工廠」(AI Superfactory),透過高速光纖串聯不同地區的資料中心,打造能長時間運轉、專門處理大型AI模型訓練的新一代運算基礎設施。​

微軟這項配置的目標,是把原本分散的資料中心整合成一台虛擬超級電腦,專門應付需要龐大算力的人工智慧工作負載。​

21f2e2e3 dfd3 4082 bd76 e8c7165a3928
微軟發布首座人工智慧超級工廠,全球運算網路藍圖曝光。(圖/AI生成)

延伸閱讀:DeepMind發表WeatherNext 2 2週天氣預報快8倍、比傳統模式更準

依微軟說明,這套系統目前將位於美國威斯康辛州與喬治亞州亞特蘭大的兩座大型AI資料中心相互串聯,透過專用光纖高速傳輸訓練資料,盡量避免資料塞車,讓大量GPU能持續保持運算,不必因等待其他據點回傳結果而閒置。​

整體架構採雙層樓高密度設計,把晶片和伺服器更緊密地排列在機房內,在有限空間中塞進更多運算資源,同時縮短機架之間的距離,以降低延遲。​

微軟Azure基礎架構總經理Alistair Speirs表示,這不只是幾座資料中心之間多拉了幾條線,而是一個設計成能當作虛擬超級電腦運作的分散式網路系統,用來處理最具挑戰性的AI任務。​

他說,微軟之所以稱之為「人工智慧超級工廠」,是因為系統是在數百萬個硬體元件上,同步協調執行同一個複雜任務,而不是各自跑零散的小型工作。​

在網路層面,微軟打造名為AI WAN的專用廣域網路,整合新鋪設與既有的光纖資源,並調整網路協定與架構,縮短資料在各據點之間傳輸的路徑,盡量壓低延遲。​

藉由這套網路,各地資料中心可以近乎即時地協作訓練同一個模型,每個據點依其算力分擔部分工作,讓整體運算效率最大化。​

微軟雲端及人工智慧事業執行副總裁斯科特·格思裡(Scott Guthrie)指出,在AI領域維持領先,不只是把GPU的數量一再疊加,更重要的是建出一套能讓所有GPU「像一個系統」協同運作的基礎設施。​

他強調,這樣的設計才能真正支撐下一代大型模型的訓練需求,並為客戶提供穩定且可擴充的雲端AI服務。​

為處理高吞吐量運算需求,微軟在這些新據點採用Fairwater佈局,導入NvidiaGB200NVL72等高階硬體模組,並規畫擴展至更大規模的BlackwellGPU叢集,以因應未來更大型模型的訓練。​

在散熱設計上,微軟結合液體冷卻系統,將伺服器運轉產生的熱量帶出建築物外降溫後再回流,並強調除了在需要調整化學成分時才更換用水,平常幾乎不消耗新水,以兼顧效能與環境永續。​

微軟Azure首席技術長Mark Russinovich表示,隨著AI模型持續變大、參數和訓練資料集不斷成長,所需的基礎設施規模早已超過單一甚至兩座資料中心,「現在要訓練這些模型,需要的是由多個據點組成的超級網路」。​

他指出,微軟啟用的AI超級工廠具備EB級(Exabyte)儲存空間與數百萬個CPU核心,專門支援大規模訓練流程與相關輔助工作,成為OpenAI等合作夥伴以及微軟自家AI研發團隊的重要算力後盾。​

資料來源:MicrosoftThe Wall Street Journal

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button