设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

你敢要它就有!至强 6 新品治好选择困难症

2025/3/24 13:36:38 来源:之家网站 作者:- 责编:-

导语:

单核 10MB L3?基频 4GHz?32TB 内存?各种数据中心 CPU 升级需求都能在这里找到解决方案。

2 月下旬,英特尔新一代数据中心处理器至强 6 大家族迎来了第三波的新品发布,主要包括代号 Granite Rapids-SP 的至强 6700/6500 性能核处理器,以及代号 Granite Rapids-D 的至强 6 系统级芯片(SoC)。

至强 6700/6500 系列性能核处理器上市,意味着至强 6 性能核产品阵容终于“补全”,覆盖从 8 至 128 核,得以更好地衔接第四代 / 第五代至强可扩展处理器产品线,与去年发布的至强 6700 系列能效核处理器形成清晰的分工。

至强 6 全家福

由于至强 6 产品家族旗下型号多,且发布时间跨度较长,定位差异也很大,我们先简要回顾至强 6 家族已经上市的产品线。

2024 年 6 月,至强 6 首次亮相,发布的是代号为 Sierra Forest-SP 的至强 6700 能效核处理器。该系列的计算单元采用英特尔 3 制造工艺,提供了 144 个能效核,主要针对高密度、横向扩展工作负载,如云原生、CDN、微服务等,在为这类应用带来性能改善的同时,能效也有更为明显的提升。至强 6700 系列能效核处理器最大功耗 350 瓦,采用 Socket E2 接口(LGA 4710),支持 8 通道 DDR5 6400MT/s,88 个 PCIe 5.0 通道及 64 个 CXL 2.0 通道。

2024 年 9 月发布的至强 6900 系列性能核处理器代号 Granite Rapids-AP,定位为旗舰级,适合要求严苛的云、科学计算、AI(机头)等领域,可以在同样的空间内部署更多的性能核(单插槽可以达到 128 个性能核)、提供更大的内存带宽(12 通道内存,并支持 MRDIMM 8800MT/s)、更多的 PCIe 5.0 通道(96 个)或 CXL 2.0 通道(64 个),以及 6 个 UPI2.0 链路。相应的,至强 6900 系列性能核处理器需要使用更大面积的接口 Socket BR(LGA 7529),最大功耗也增加到 500 瓦。其新的性能核前端设计有较大改进,在翻倍的内核数量和内存带宽加持下,性能表现是至强 6 整个家族中的佼佼者,在很多主流应用负载上的性能表现都能达到上一代产品的 2-3 倍。

今年 2 月发布的至强 6700/6500 系列性能核处理器代号 Granite Rapids-SP,集成了 8 到 86 个性能核,平均每核分配的末级缓存多数都在 4MB 以上,完整支持 AMX 指令集,DSA、QAT、IAA 和 DLB 等加速器也都开启。至强 6700/6500 性能核处理器使用与至强 6700 能效核处理器相同的接口和功耗上限,PCIe、CXL 扩展能力相同,支持 8 通道 DDR5 6400MT/s,部分型号还提供了 MRDIMM 8000MT/s 的支持能力。该系列的市场定位更偏向主流的数据中心、电信基础设施,以及企业级服务器和边缘场景。

在此,我们先做一个小结:至强 6 家族规划了 AP 与 SP,以及性能核与能效核的微架构,由此交叉构成多个产品大类:AP + 性能核对应至强 6900 性能核产品线(最高 128 核),负责提供这代产品目前最强性能输出水平(内核数和内存通道),PCIe 和 CXL 扩展能力也要更强一些,使用面积更大的封装和插座。至强 6900 性能核的 6 个 UPI2.0 链路全部用于双路互联,可以充分提升跨处理器的访问带宽以尽可能提高性能,但不考虑用于构建多路系统。SP + 能效核及性能核,对应的产品线则分别为至强 6700 能效核(最高 144 核)与至强 6700/6500 性能核产品线(最高 86 核),更多是用于主流服务器机型的升级换代,封装尺寸与前几代至强保持一致。

应用新主流:生成式 AI、结构化数据

至强 6700/6500 系列性能核处理器与已经发布半年多的至强 6700 系列能效核处理器可以使用相同的服务器平台,因此在发布后可以迅速进入市场。由于过去一年 AI 需求高涨,业内一直期待性能核与能效核处理器能够尽快形成清晰明确的分工,以完整覆盖主流市场各种类型业务的需求:传统业务需要降本增效,新兴业务需要提质增量。

传统业务混合 AI 负载

在大模型蔚为风潮的背景下,至强 6 性能核拥有更多的内核、较大的内存带宽,以及 AMX 这类为 AI 任务优化的加速器,不论是传统的神经网络推理,还是 Transformer 大语言模型推理的性能都相较上一代至强处理器有大幅提升。主流的 200 亿参数以下的中、小规模的模型在至强 6 上都可以顺畅运行,再得益于至强本身在通用计算领域的竞争力和积累,就使得至强 6700 性能核非常适合混合部署 AI 业务的用户。譬如在互联网行业中已经验证成熟的推广搜(广告、推荐、搜索),企业应用中渗透率很高的自然语言处理,正在蓬勃发展的智能客服、知识助理等大模型私有部署等。这些业务都可以与传统业务部署在同一个节点、同一个资源池当中。

生成式 AI

如果说至强 6900 性能核是 AI 训练的最佳机头,那么至强 6700/6500 系列性能核也有望成为 AI 推理的优秀机头,搭配 GPU 或其他 AI 专用加速器运行以生成式 AI 为代表的,大参数、高并发的大语言模型推理任务。

上一小节中提到了至强 6 性能核自身核心性能、内存带宽的优势。在至强 6700/6500 系列性能核上,还比较容易获得内存容量的优势。基于传统布局,双路至强 6700/6500 系列性能核机型依旧可以轻松提供 32 条内存插槽,可以较低成本部署 2~4TB 本地内存,上限可以达到 8TB。部分型号还可以享受 MRDIMM 8000MT/s 提供的更高带宽。除了充裕的内存容量和带宽,充足的 PCIe 5.0 通道数有利于配置多块 AI 加速器和高性能网卡。至强 6700/6500 系列的双路节点可以提供 176 条 PCIe 5.0 通道,单路节点可提供 136 条。这使得在 4U 机箱内部署 8 卡不再需要依赖 PCIe Switch 板,在液冷的支持下部署更高的密度也依然游刃有余。

随着以 KTransformer 为代表的开源大语言模型推理优化框架的出现,利用 MoE 架构稀疏性的特点在 CPU 和 GPU 上实现异构分层部署推理任务逐渐引起重视。这种异构协同的方案可以充分利用算力、存储资源,大幅降低部署门槛,显著提升推理速度。这种模式也能让至强 6 处理器的计算性能、内存优势及 AMX 加速能力获得更大的发挥空间。而且至强 6 性能核产品线中的 DSA、QAT、DLB、IAA 等加速器也全都默认开放,让数据流的预处理、节点间交互的效率更高。尤其是 6700 性能核的高性能产品线当中,4 种加速器都各提供 4 个,能助力 CPU 卸载加密、压缩、数据传输和转换等任务。这些特性有利于改善节点内南北向、东西向数据传输中的消耗,在构建高并行、多节点的 AI 集群时可进一步提升效率。

至强处理器在可信或隐私计算方面较为独到的技术特性,也在这次至强 6700/6500 系列性能核发布时得到了进一步增强。其从第四代至强可扩展处理器开始集成的 TDX(Trust Domain Extensions)技术,原本可基于硬件的可信执行环境部署信任域(TD)让敏感数据和应用程序获得虚拟机 / 容器级别的隔离,免受未经授权的访问。这次也随新品将机密计算的覆盖范围进一步增强,通过新增的 TDX Connect,可在 CPU 和 PCIe 设备之间实现高性能的加密连接,这可以更好地保护加载于主内存、CPU、加速卡全链路中的数据。TDX Connect 对于需要租赁弹性算力部署私有 AI 业务的用户而言是一个非常重要的保障,毕竟在算力平权的时代,自有数据和微调的垂直模型才是企业核心竞争力的有力保障。

向量数据库

生成式 AI 带动了业内对向量数据库的关注。由于大语言模型的知识是在训练和微调时固化的,遇到“超纲”的问题时,模型可能会拒绝回答或胡说八道。通过检索增强生成(RAG)让模型可以检索外部数据获取更多的信息以补充其知识盲区。对于私有化部署大语言模型的企业而言,必须通过微调强化模型在特定领域的专业度,并建议搭配向量数据库以实现 RAG,可以充分利用私有信息并不断更新。简单说,参数规模决定了大语言模型的智力水平,向量数据库决定了大语言模型的专业度、可信度,以及可持续发展。

向量数据库与传统的以行或列组织信息的数据库不同,其使用数据的高维度嵌入作为信息单元,并基于嵌入进行相似性检索。因此在构建向量数据库时需要通过模型对筛选、收集的文档进行提取、格式化、切分。结构化数据库的向量操作非常适合使用至强 6 性能核进行处理。单路的至强 6 性能核的典型应用场景是全闪存储节点,在此基础上部署向量数据库能进一步发挥处理器的性能特点:适宜的处理能力和丰富的扩展性。

内存数据库

相较于至强 6900 性能核处理器和 6700 能效核处理器,至强 6700/6500 系列性能核处理器还拥有一个关键的特点,它们传承了英特尔在 x86 市场的独门绝技:可以原生扩展至 4 路和 8 路,这意味着单台服务器通过八路配置即可提供 688 个性能核以及 32TB 本地 DDR5 内存,尤其适合用于大型内存数据库以及科学计算集群的胖节点等。以 SAP HANA 为代表的大型内存数据库为联机事物处理(OLTP)等关键业务提供了有力支撑,将尽可能多的数据放置在内存当中有利于提高并发事务吞吐量、加快决策速度。

另外,根据以往的经验,顶尖的服务器厂商还会通过节点控制器进一步拓展处理器数量和内存容量。不过在至强 6 性能核上还有更简单的内存扩展方式 ——CXL2.0 内存。至强 6 性能核独有的 CXL 平面内存模式(Flat Memory Mode)可以平滑地扩展内存容量和带宽,不需要操作系统内核或部署专用的软件支持。平面内存模式与本地内存的配置比例是 1:1,理论上可以将服务器的内存容量翻倍,或者允许使用相对更便宜的基于 DDR4 的 CXL 内存。以配置 32TB 内存为例,如果完全使用本地内存,必须使用单条 128GB 的 DDR5 RDIMM,价格比较昂贵;而搭配 CXL 内存,本地内存就可以使用更为常见 64GB DDR5 RDIMM,从而有效降低整体成本,总带宽还有所提升。

产品阵容进一步解析

至强 6700/6500 性能核处理器规划了非常绵密和多样的产品线,内核数量从 8 核至 86 核,UPI 数量和启用的加速器数量也有所差别。为了构成如此多样的规格,英特尔设计了三种类型的封装形态:XCC、HCC、LCC。

XCC:拥有两个计算单元(Compute Tile)和两个 IO 单元(IO Tile),分别由 Intel 3 和 Intel 7 工艺制造。XCC 所使用计算单元与组成至强 6900 性能核的 UCC 相同,都是单芯片 44 个内核、4 通道内存控制器,区别是 UCC 使用了 3 个计算单元。XCC 的两个计算单元提供最多 86 个内核。

HCC:一个计算单元和两个 IO 单元。HCC 的计算单元提供最多 48 个核心,以及 8 通道内存控制器。HCC 没有考虑对 MRDIMM 的支持。

LCC:一个 16 核心的计算单元和两个 IO 单元,不支持 MRDIMM。使用 LCC 的处理器 UPI 链接数只有 3,这可能与其计算单元和 IO 单元之间的 EMIB 连接较少有关。

从产品定位角度看,至强 6700/6500 性能核处理器可以进一步细分为高性能、主流、多路、单路等产品线。

高性能产品线

高性能产品线提供了最多 86 核的型号(6787P),多数型号的加速器全部打开。至强 6 的每个 IO 单元提供 2 个加速器模块,每个模块有 DSA、QAT、DLB、IAA 各 1。两个 IO 单元就是 4 种加速器各 4 个。基于 LCC 的 6517P 和 6507P 提供的加速器是各两个。

高性能产品线涵盖了 XCC、HCC、LCC 三种封装,因此内核数量、内存支持、功耗的差异也很大。其中,以第三位数字为界,674xP 以上的 4 款均是 XCC,内核数量最多 86,LCC 末级缓存最多 336MB,均支持 MRDIMM 8000MT/s。这里有一个特例是 6730P,它也基于 XCC,提供了 288MB 末级缓存,但不支持 MRDIMM。

其中,6745P 以 32 核享受了多达 336MB 的末级缓存,平均每核缓存超过 10MB!它的频率也较高,基础频率超过 3GHz,全核睿频可以达到 4.1GHz,单核 4.3GHz。这种核少、高频、大缓存的 SKU 更适合追求低内存延迟、高处理压力的任务,譬如大数据分析、科学计算等。而核数更多的型号则更适合高并行性的任务。

6527P、6736P、6737P 这几个 SKU 使用的 HCC 封装,提供 16 到 36 核的配置。HCC 理论上最多 48 核,提供 192MB 末级缓存。6737P 只使用了其中的 32 核,但享用了全部末级缓存,因此其定位略高于核数略多的 6736P(36 核)。

6507 和 6517P 使用 LCC 封装,核数少,基础频率高,可以达到 3.2GHz 以上,睿频可以达到 4.3GHz,而功耗不到 200 瓦。LCC 给每个性能核准备了 4.5~6MB 的末级缓存,要多于其他系列的原生设计。高频率、大缓存有都利于在核数相对较少的情况下提升性能。

主流产品线

主流产品线的核数跨度在 12 个到 64 个之间,显然也使用了三种版本的内核封装。其中两款 67x0P 使用 XCC,却没有开放 MRDIMM 的支持。不过好在二者的末级缓存都较大,平均每核心的缓存容量达到至少 5MB。相比高性能产品线,主流产品线的加速器只开放了一半,分别只有 2 个,每 CPU 的 TDX 数量也减半了。

这一组产品的型号非常直观,第三位数字可以与实际内核数挂钩。譬如 6760P 的第三位是 6,核数是 64;6520P 的 2 对应 24 核。唯一的特例是 6505P,它不是 8 核而是 12 核。

多路产品线

多路产品线是为 4 路、8 路服务器准备的,售价较高,均被列入 67xxP 序列。该产品线的型号也比较容易理解,第三位数字大致对应了核数多寡;第四位数字是 8 或 4,清晰体现了其原生的 UPI 直连多路支持能力。譬如 6724P 和 6714P 基于 LCC,每个插槽有 3 个 UPI 链接,正好可以分别直连其他 3 个插座以构成全连接的 4 路系统,或通过节点控制器实现 8 路。其余尾数为 8 的处理器都有 4 个 UPI,可以构成典型的 8 路系统。

这些面向多路的产品都不支持 MRDIMM,即使是其中两款基于 XCC 也是如此。其实对于多路系统而言,相邻任意两个处理器之间顶多只有一条 UPI 链接,跨插座的内存访问带宽远低于双路产品线 —— 作为对比,双路旗舰 6900 性能核系列会使用全部 6 个 UPI 互联。因此,多路系统全局访问内存的瓶颈在于 UPI 的带宽,很难发挥 MRDIMM 的带宽优势,暂时也就没有启用的必要。长远看,由于 MRDIMM 有单条内存容量翻倍的潜力,未来的多路系统还是会择机引入 MDRIMM 的。

多路产品线中超过 16 核的 SKU 都开放了全部的加速器。6748P 是已公开的至强 6 产品线中,唯一使用了“满血”HCC 的 SKU,提供 48 核和 192MB 末级缓存。

8 核的 6714P 和 16 核的 6724P 基于 LCC 打造,它俩的核数较少,但设定了比高性能产品线的 6507P 和 6517P 更高的功耗和频率。实际上,6714P 和 6724P 是整个至强 6 家族当中频率最高的 SKU,基础频率甚至达到了 4GHz,不论是之前提到的高性能产品线还是后面要提到的单路产品线都没有达到这个水平。高频也是它们虽然基于 LCC,但依旧可以冠以 67xxP 之名的原因之一。这样的规格虽不适合高并发的处理,但优势在于响应速度更快,在配合某些根据内核数收取授权费的软件使用时也可以适当降低成本。

单路产品线

至强 6700 和 6500 性能核的单路产品线所有产品名称的第四位数字均为 1,第三位数字与核数的对应关系也最为“整齐”,核数均为 8 的整倍数,没有特例。单路处理器不需要使用 UPI 互联,因此 IO 单元中原本可用作 UPI x24 的几个 UIO 可被用作 x16 的 PCIe 或 CXL 通道。最终它们的 PCIe 通道数比双路“同胞”们多了 48 个,达到 136 个。

(图注:性能核处理器的 IO 单元功能模块)

单路至强 6 性能核处理器的加速器数量大多为 3 组,介于性能(4 组)和主流(2 组)产品线之间。80 和 64 核的单路处理器支持 MRDIMM 8000MT/s,但同样使用 XCC 的 48 核 6741P 却不支持 MRDIMM。

由于当前处理器的内核数量已经足够的多,专门规划单路至强可以控制成本,或用于提升机箱内扩展设备的部署密度。以全闪存储节点为例,如果 2U 前窗提供 24 个 U.2 NVMe 盘位,不依赖 PCIe Switch 或扩展卡的话,需要 96 个 NVMe 通道。单路至强 6 性能核满足 NVMe SSD 后,还有 40 个 PCIe 5.0 通道,可分配给两块 100/200G IB 网卡服务存储集群,还有 1 块 OCP 网卡做管理。对于并行度较高的业务,譬如云、轻量级推理、视频转码等,如果在原本双路机箱内部署两个单路节点,在内核数相同的前提下,可以挂载更多的 PCIe 设备用于推理、转码、存储等。

至强 6 系统级芯片、至强 6300

在至强 6700/6500 性能核发布同期,英特尔也正式推出了至强 6 系统级芯片与至强 6300,在这里我们对二者也顺便做一些简要介绍。

至强 6 系统级芯片的计算单元与 XCC、HCC、LCC 是通用的,但搭配了一个重新设计的 IO 单元。这个 IO 单元取消了 UIO,减少了 IO 模块,仅支持较少、较低规格的 PCIe 和 CXL,主要面积用于提供 2×100Gbps 以太网、媒体加速器、vRAN 加速器等。这也从另一个角度体现了至强 6 产品家族将计算单元和 IO 单元解耦的意义。通过调整 IO 单元的规格,配置不同的扩展能力、多样化的加速器,可以更好地适配更丰富的细分场景。

至强 6 系统级芯片将通用计算、AI 推理、媒体编码、以太网等功能整合在单一封装内,主要部署于边缘侧,如网络安全加速器、媒体服务器、5G 虚拟基站等。目前已经公开规格的至强 6 系统级芯片最多 42 核(6726P-B),使用 BGA4368 封装,TDP 最高 235 瓦,支持 4 通道 DDR5 6400MT/S。英特尔也透露了 72 核的存在,后续还会陆续发布。

至强 6300 系列定位于入门级服务器,采用的内核是 Raptor Lake,提供 8 个核心,支持双通道 DDR5 4800MT/s ECC UDIMM。Raptor Lake 就是 13 代酷睿处理器中的性能核,只是用在至强产品线当中时没有再用酷睿那种性能核与能效核并存,或者是大小核的设计,而是使用全性能核的设计。它还提供 ECC 内存支持,并搭配 C260 系列 PCH。同样的内核、同样的 LGA1700 插座,其实英特尔在 2024 年第四季度推出过至强 E-2400 系列。至强 6300 系列的出现看起来像是有意将至强 E-2400 统一到至强 6 品牌之下。

至强 6 全家福成形:高低搭配,平滑过渡

至强 6700/6500 性能核的发布,进一步完善了至强 6 家族产品线。整个面向主流和中高端市场的产品线覆盖了 8 核到 144 核,提供了领先的内核数量、独一份的内存带宽、具有前瞻性的加速器。对于正在进入换代周期的第二、第三代至强可扩展处理器的机型用户而言,至强 6 可以很好地承接业务迁移、升级的需求。对于保持传统业务的用户,至强 6 能效核可以平滑迁移并提供数倍的部署密度以及更好的能效,以改善运营成本。对于希望与时俱进,跟上 AI 浪潮的用户,至强 6 性能核不仅仅是提供更大更多的内核,其实还提供了更适应 AI 需求的加速器,以实现 1+1>2 的效果。

至强 6 为旗舰与主流产品提供了不同的封装规模。后者的封装尺寸与第三代至强可扩展处理器以来的几代产品保持相同,TDP 的增长也比较谨慎。这意味着对于多数用户而言,这数年来积累的系统布局、运维习惯可以基本保持不变。

狂飙的内核与稳定的外形,这并非反差,而是技术前瞻性和对市场持久承诺的结合。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知