科技媒体 chipsandcheese 昨日(6 月 18 日)发布博文,报道称 AMD 正式发布 CDNA 4 架构,在保持在通用向量运算领域的优势外,主要聚焦提升低精度数据类型的矩阵乘法性能,以强化人工智能(AI)工作负载处理能力。
CDNA 4 延续了 CDNA 3 的模块化设计,采用类似 CPU 的芯粒(chiplet)布局。每个计算芯片单元(XCD)搭载 CDNA 计算单元(CU),通过四块基底芯片整合八块 XCD,形成包含 256MB 内存侧缓存的完整 GPU 架构。
与 CDNA 3 的 MI300X 相比,CDNA 4 的 MI355X 通过减少单 XCD 的 CU 数量并关闭部分单元以提升良率,但凭借更高时钟频率缩小了性能差距。
在低精度矩阵运算这个 AI 关键指标中,CDNA 4 的每 CU 矩阵吞吐量翻倍,其 FP6 精度性能与英伟达 B200 的流式多处理器(SM)持平。
但在 8 位与 16 位数据类型中,英伟达仍保持单周期吞吐量优势。然而,AMD 凭借更高的 CU 数量与频率,维持了通用向量运算(如 FP32)的绝对领先,单 CU 仍提供 128 条 FP32 运算管线,整体性能远超英伟达 Blackwell 架构。
CDNA 4 的核心改进之一是提升本地数据共享(LDS)的容量与带宽。LDS 容量从 64KB 增至 160KB,读取带宽翻倍至每周期 256 字节,并新增“转置读取”指令,优化矩阵乘法的内存访问效率。
尽管英伟达的共享内存(Shared Memory)在单核容量与缓存灵活性上更优(最高 228KB 可分配为共享内存或 L1 缓存),但 AMD 通过 40MB 全 GPU LDS 容量(B200 仅约 33MB)弥补了核心级存储的不足。
显存方面,MI355X 升级至 HBM3E 技术,总带宽达 8TB/s,容量 288GB,显著超越英伟达 B200 的 7.7TB/s 与 180GB。这一优势在大数据量运算中尤为重要,尤其当 AI 模型超出显存容量时,AMD 的架构可减少数据交换延迟。
该媒体认为 AMD 的 CDNA 4 延续了 CDNA 3 的“保守进化”路线,类似 Zen 3 到 Zen 4 的迭代逻辑,通过优化而非颠覆性创新巩固优势。其策略聚焦于扩大计算规模与显存带宽,同时针对性补足 AI 短板。
该媒体认为在提升性能方面,AMD和英伟达的路径差异显著:AMD 依赖“大芯片 + 大缓存”模式,而英伟达更注重显存带宽与单核效率。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。