AWS發布搭載NVIDIA Blackwell新GPU伺服器「P6e-GB200」 AI訓練算力狂飆20倍
記者孫敬/編譯
亞馬遜網路服務(AWS) 15日,推出基於NVIDIA Grace Blackwell晶片打造的全新GPU伺服器P6e-GB200。這款專為AI和高效能運算(HPC)工作負載所設計,可支援規模龐大且複雜的AI模型訓練和部署,最高可配置72顆NVIDIA Blackwell GPU,提供高達360兆次FP8浮點運算的高密度計算能力。
延伸閱讀:黃仁勳親解AI變笨迷思 用AI更聰明關鍵在於「提問與思辨」

P6e-GB200算力狂飆!鎖定兆級參數模型,液冷散熱確保高效穩定
相較於現有的P5en實例,P6e-GB200的運算效能提升逾20倍,記憶體容量更增加超過11倍。此外,透過第四代彈性結構轉接器(EFAv4)提供高達28.8 Tbps的超高頻寬,確保資料傳輸的流暢性。
除了P6e-GB200,AWS也同步推出了P6-B200,搭載8顆Blackwell GPU和1.4 TB的高頻寬GPU記憶體,GPU效能和記憶體容量相較P5en提升逾 2 倍,P6e-GB200特別針對兆級參數規模的AI模型訓練與推論進行優化,能夠在單一NVLink網域內完整處理萬億級參數的模型。
為了確保這些頂級伺服器能發揮最佳性能並穩定運行,P6e-GB200和P6-B200實例均採用了先進的液體冷卻系統,在AWS的第三代EC2超集群(Ultracluster)環境中,展現出最佳化的效能表現,特別是在分散式訓練中,透過EFAv4可實現高達18%的性能提升。
瀏覽 239 次