专为生成式 AI 设计的 GPU:HBM 密度是英伟达 H100 的 2.4 倍,带宽是英伟达 H100 的 1.6 倍。
作者 | ZeR0
编辑 | 漠影
芯东西 6 月 14 日报道,今日凌晨,英伟达的头号劲敌 AMD,终于放出了令人期待已久的 AI 大招。
2014 年,苏姿丰成为 AMD CEO 时,这家芯片企业正濒临生存危机,裁员约 1/4,股价徘徊在 2 美元。随后在苏姿丰的掌舵之下,AMD 完成了漂亮的转身,9 年来股价飙升近 30 倍,对英伟达和英特尔两家顶级芯片巨头形成了制衡。
随着生成式 AI 飓风席卷全球,英伟达 GPU 被各家大厂争相抢购,焦点很快转移到 AMD 身上 ——AMD 能否生产出足够强大的 AI 芯片来打破英伟达近乎垄断的市场地位,抓住新一波 AI 浪潮?
今日,AMD 交出阶段性答卷。
在展示下一代 AI 芯片 MI300X 加速器时,苏姿丰满面笑容地说:“我爱这颗芯片”。
MI300X 是一个纯 GPU 版本,采用 AMD CDNA 3 技术,使用多达 192 GB 的 HBM3 高带宽内存来加速大型语言模型和生成式 AI 计算。
AMD 主要客户将在第三季度开始试用 MI300X,第四季度开始全面生产。另一种型号 Instinct MI300A 现在正在向客户发售。
苏姿丰说,人工智能是 AMD“最大、最具战略意义的长期增长机会”。
现场,AMD 与明星 AI 独角兽企业 Hugging Face 宣布了一项新的合作伙伴关系,为 AMD 的 CPU、GPU 和其他 AI 硬件优化他们的模型。
除了 AI 芯片外,AMD 还推出专为云计算和超大规模用户设计的全新 EPYC 服务器处理器,代号为 Bergamo,每个插槽最多包含 128 个内核,并针对各种容器化工作负载进行了优化。
亚马逊旗下云计算部门 AWS、甲骨文云、Meta、微软 Azure 的高管均来到现场,分享在其数据中心使用 AMD 芯片及软件的感受。
01.加速生成式 AI:192GB HBM3,单个 GPU 跑大模型
此前,AMD Instinct GPU 已经被许多世界上最快的超级计算机采用。
MI300X 加速器是 AMD Instinct MI300 系列的新成员,提供一个仅有 GPU 配置的芯片版本。
MI300X 及其 CDNA 架构专为大型语言模型和其他先进 AI 模型而设计,将 12 个 5nm chiplets 封装在一起,共有 1530 亿颗晶体管。
这款全新 AI 芯片舍弃了 APU 的 24 个 Zen 内核和 I / O 芯片,转而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3,提供 5.2 TB / s 的内存带宽和 896GB/s的无限带宽。
MI300X 的 HBM 密度是英伟达 H100 的 2.4 倍,带宽是英伟达 H100 的 1.6 倍,这意味着 AMD 可以运行比英伟达芯片更大的模型。
AMD 演示了在单个 MI300X GPU 上运行拥有 400 亿个参数的 Falcon-40B 大型语言模型,让它写了一首关于旧金山的诗。
“模型尺寸变得越来越大,你需要多个 GPU 来运行最新的大型语言模型,”苏姿丰说,随着 AMD 芯片上内存增加,开发者将不需要那么多 GPU。
另一款 MI300A 被苏姿丰称作“面向 AI 和高性能计算的全球首款 APU 加速器”,将多个 CPU、GPU 和高带宽内存封在一起,在 13 个 chiplets 上拥有 1460 亿颗晶体管。
MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架构,搭配 24 个 Zen 4 核心、128GB HBM3,相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。
AMD 还公布了一种 AMD Infinity 架构。该架构将 8 个 MI300X 加速器连接在一个考虑了 AI 推理和训练的标准系统中,提供共 1.5TB HBM3 内存。
据台媒报道,AMD 的 Instinct MI300 系列以及英伟达的 H100 / H800 系列 GPU 都在采用台积电先进的后端 3D 封装方法 CoWoS,导致台积电 CoWoS 产能短缺将持续存在。台积电目前有能力每月处理大约 8000 片 CoWoS 晶圆,其中英伟达和 AMD 合计占了大约 70% 到 80%。
此外,英伟达近年备受开发者偏爱的一大关键护城河是 CUDA 软件。AMD 总裁 Victor Peng 也展示了 AMD 在开发软件生态方面所做的努力。
AMD 计划在 AI 软件生态系统开发中采用“开放(Open)、成熟(Proven)、就绪(Ready)”的理念。
AMD 的 ROCm 是一套完整的库和工具,用于优化 AI 软件栈。不同于 CUDA,这是一个开放的平台。
AMD 还分享了 PyTorch 与 ROCm 的合作。新的 PyTorch 2.0 的速度几乎是之前版本的两倍。AMD 是 PyTorch 基金会的创始成员之一。
AMD 正在不断优化 ROCm。Victor Peng 说:“虽然这是一段旅程,但我们在构建可与模型、库、框架和工具的开放生态系统协同工作的强大软件栈方面取得了真正的巨大进步。”
02.云原生处理器 Bergamo:128 核,256 个线程,最高 vCPU 密度
再来看下 AMD 的数据中心 CPU。
苏姿丰首先分享了 AMD EPYC 处理器的进展,特别是在全球范围内可用的云计算实例方面。
她强调说,AMD 第四代 EPYC Genoa 处理器在云计算工作负载方面的性能是英特尔竞品的 1.8 倍,在企业工作负载方面的性能提高到 1.9 倍。
绝大多数 AI 都在 CPU 上运行,AMD 称,与英特尔至强 8490H 相比,第四代 EPYC 在性能上遥遥领先,性能优势高出 1.9 倍。
苏姿丰说,云原生处理器以吞吐量为导向,需要最高的性能、可扩展性、计算密度和能效。
新发布的 Bergamo,便是云原生处理器市场的入口。
该芯片有 820 亿颗晶体管,提供了最高的 vCPU 密度。
在大散热器下,有一个表面看起来非常像以前的 EPYC 的芯片,跟与 Rome 或 Milan 一样有中央 I / O 芯片和 8 个核心复合芯片(CCD)。
Bergamo 的每个插槽有多达 128 个核心、256 个线程,分布在 8 个 CCD 上,每个 CCD 的核心数量是 Genoa 16 个核心的两倍,采用比标准 Zen 4 内核提供更高密度的全新 Zen 4c 核心设计,并支持一致的 x86 ISA。
“Zen 4c 针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效,”苏姿丰在演讲中谈道,“结果设计面积缩小了 35%,每瓦性能显著提高。”
Bergamo 现在正在向 AMD 的云客户发货。AMD 还分享了第四代 EPYC 9754 与英特尔至强 8490H 的性能、密度和能效和对比:
除了 Bergamo 的新核心和 Chiplet 架构之外,该处理器与 Genoa 有很多共同之处,包括支持 12 通道 DDR5 内存、最新 PCIe 5.0、单插槽或双插槽配置等等。
不过,多核心不再只是 AMD 处理器独有的特色。不久之前,数据中心处理器新起之秀 Ampere Computing 刚推出拥有多达 192 个单线程 Ampere 核心的 Ampere One 系列处理器。英特尔也计划在 2024 年初推出内核优化的至强处理器 Sierra Forest,将内置 144 个高效能核心。
AMD 还展示了其最新的缓存堆叠 X 芯片,代号为 Genoa-X,现已上市。
该芯片针对高性能计算工作负载,包括计算流体动力学、电子设计自动化、有限元分析、地震层析成像及其他带宽敏感型工作负载,这些工作负载受益于大量共享缓存。
Genoa-X CPU 基于 AMD 的标准 Genoa 平台,采用 AMD 3D V-Cache 技术,通过在每个 CCD 上垂直堆叠 SRAM 模块来提高可用的 L3 缓存。
该芯片可提供多达 96 个内核和总计 1.1GB 的 L3 高速缓存,每个 CCD 上堆叠了一个 64MB SRAM 块。
据 AMD 披露的数据,在各种计算流体动力学和有限元分析工作负载方面,与英特尔最高规格的 60 核 Sapphire Rapids 至强相比,Genoa-X 缓存提升的性能提高到 2.2 倍到 2.9 倍。
下图是 Genoa-X 与相同数量核心的英特尔至强的性能对比:
03.即将推出全新 DPU
最后,AMD 简要介绍了其网络基础设施。
去年 AMD 以 19 亿美元收购 Pensando,进入 DPU 赛道。AMD 解释了如何使用其 DPU 来减少数据中心的网络开销。
AMD 将其 P4 DPU 架构称作“世界上最智能的 DPU”,并称其 Pensando SmartNIC 是新数据中心架构不可或缺的一部分。
AMD 还在现场展示了与 Aruba Networks 共同开发的智能交换机。AMD 计划将 P4 DPU 卸载集成到网络交换机本身,从而提供机架级服务。
AMD 最新的 DPU 旨在从 CPU 卸载网络、安全和虚拟化任务,与当前一代 P4 DPU 相比将提供更高的性能和能效。
其 DPU 已得到微软、IBM 云、甲骨文云等许多主要云提供商以及 VMware 虚拟机管理程序等软件套件的支持。
AMD 打算在今年晚些时候推出 Giglio DPU 之前扩大兼容软件列表,推出“芯片软件开发工具包”,以便用户更轻松地在其 DPU 上部署工作负载。
04.结语:到 2027 年,数据中心 AI 加速器市场规模将超过 1500 亿美元
全球数据中心 GPU 和 CPU 的头部企业英伟达和英特尔均在强调其加速 AI 的实力。作为这两条赛道“万年老二”的 AMD,也在竞相满足对 AI 计算日益增长的需求,并通过推出适应最新需求的数据中心 GPU 来挑战英伟达在新兴市场的主导地位。
生成式 AI 和大型语言模型的应用热潮正在将数据中心推向极限。截至目前,英伟达在提供处理这些工作负载所需的技术方面具有优势。根据市场调研机构 New Street Research 的数据,英伟达占据了可用于机器学习的 GPU 市场的 95%。
“我们仍处于 AI 生命周期的非常、非常早的阶段,”苏姿丰预测,到 2027 年,数据中心 AI 加速器总潜在市场规模将增长 5 倍,从今年的 300 亿美元左右以超过 50% 的复合年增长率增长到 2027 年的 1500 亿美元以上。
AMD 并未透露两款 MI300 新芯片的价格,但这可能会给英伟达带来一定价格压力,之前 H100 价格据传高达 30000 美元乃至更多。
本文来自微信公众号:芯东西 (ID:aichip001),作者:ZeR0
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。