發布時間:2025-09-17 來源:閉門覓句網作者:納魯托和薩斯蓋
AMD宣布,對ROCm軟件棧進行了更新,推出了新的迭代版本ROCm 7.0,這也是迄今為止最大規模的更新之一。這一新版本裏,AMD引入了增強的框架和新算法,旨在打造可替代英偉達CUDA的計算生態係統。
AMD表示,人工智能創新正以前所未有的速度加速,模型擴展到數千億個參數,推理需求不斷增長,企業需要平衡成本和性能的可擴展高效解決方案。開發人員麵臨著越來越大的壓力,既要跟上這些要求,又要確保靈活性、可移植性和未來準備。ROCm 7.0的發布,使得開發人員和企業能夠更快地行動、更智能地擴展並部署AI。
ROCm 7.0主要特性:
支持Instinct MI350係列GPU,突破性AI訓練和AI推理性能。
跨集群的無縫分布式推理,支持領先的框架。
HIP 7.0增強了代碼可移植性,簡化了跨硬件生態係統的開發和遷移。
以企業為中心的新工具,可簡化AI基礎設施管理和部署。
采用AMD Quark量化技術,實現了流行的MXFP4和FP8格式大型模型。
在今年6月的AMD Advancing AI 2025上,AMD發布了基於CDNA 4架構的Instinct MI350係列計算卡。其基於迭代升級後的芯片堆疊封裝工藝打造,采用N3P工藝的加速器複合核心(XCD)通過COWOS-S封裝技術堆疊在采用N6工藝的I/O核心(IOD)之上,3D混合架構為帶來了高性能密度和高能效比,IOD-IOD互連以及HBM3E顯存的集成則給予2.5D架構打造。
AMD Instinct MI350係列GPU包含有8個XCD模塊,每個XCD模塊32組計算單元,共計256組,1024個矩陣核心,每個XCD配置2MB L2緩存;IOD基於2個N6工藝核心構成,提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存;2個HBM3E顯存采用8堆棧結構,每個堆棧為12層堆疊的36GB,數據頻率為8Gbps,可提供8TB/s的顯存帶寬;內部所用的Infinity Fabric AP互聯帶寬達到5.5TB/s,外部連接則基於1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCIe 5.0接口。