全球 AI 的顶级盛会 GTC 于 3 月 17 日到 3 月 21 日在美国硅谷盛大举行。在 GTC 大会期间,华瑞指数云 ExponTech CTO 曹羽中受邀参加了专注于 AI Storage 的技术研讨会并发表演讲。在演讲中,曹羽中介绍了 ExponTech 与合作伙伴 ScaleFlux, AIC 基于英伟达的 BlueField3 DPU 以及英伟达最新发布的 Spectrum-X 网络打造的新型 AI Storage 方案,展示了该方案的实际测试数据,并与合作伙伴,AI Storage 行业专家以及一些大型客户进行了深入讨论。与会的专家均表示该方案的实测性能数据以及综合优势表现远超预期,具备很高的商业价值,very impressive!
新型 AI 存储方案采用的软硬件方案:
硬件:
F2026 AI 服务器,是一台 2U 闪存 JBOF,配备 2 个或 4 个 NVIDIA BlueField-3 数据处理单元(DPU)和 24 块高性能 ScaleFlux CSD5000 NVMe SSD(CSD5000 是 ScaleFlux 公司最新推出的一款内置硬件压缩与解压缩能力的高性能 NVMe SSD 介质);
NVIDIA Spectrum-X 网络交换机;
软件:
华瑞指数云 ExponTech 下一代分布式存储软件平台 WADP (WiDE AI Data Platform);
(本方案采用的 2U 存储节点及 ScaleFlux CSD5000 NVMe SSD)
基于此方案的 AI 训练和推理环境的实测部署架构如下图:
1 台 2U AIC JBOF 作为存储服务器, 配备 4 块 NVIDIA BlueField3 DPU, 提供 1600Gbps 网络带宽,24 块 ScaleFlux CSD5000 NVMe SSD,ExponTech WADP 存储软件的后端运行于 BlueField3 DPU 内;
1 台标准 2U 服务器作为计算服务器,配备 4 块 NVIDIA BlueField3 DPU,提供 800Gbps 网络带宽,在 DPU 内部运行 ExponTech WADP 存储软件的存储网关和协议;
计算服务器上可以配置 GPU,用于训练或推理,存储软件和网络流量运行于 DPU 内,存储 IO 不会消耗计算服务器的 CPU 和内存资源,计算服务器可以拥有更充沛的资源用于计算处理;
测试环境特别选择了 4 台 NVIDIA Spectrum-X 交换机组成两层网络,主要是为了模拟与验证在大规模组网的情况下,RoCE 网络是否依然可以很好的处理拥塞,存储软件可以依然保持稳定的存储性能和低时延;
存储服务器 (JBOF) 和计算服务器均可以按需独立扩展,按需加入更多的存储服务器 (JBOF) 或者计算服务器,构成大规模的,存算分离的,按需扩展的 AI 训练和推理集群。
基础存储性能验证:
基于上一节所述的实测部署环境,进行了存储系统的基础性能验证,其验证方法是从计算节点上运行 FIO,测试存储系统的基础性能指标。
单个计算节点可以达到近 90GB/s 的存储带宽,接近计算节点网卡的物理带宽上限;
单个计算节点可以达到 310 万 IOPS,当配置更多的计算节点时,可以同步获得更多的 IOPS。考虑到整个存储系统的后端以及协议端都是跑在 DPU 内,DPU 内的 CPU 处理性能远远不如服务器配置的 CPU,单个计算节点 + 单个存储节点即达到 310 万 IOPS 已经充分展现了本方案相当惊人的 IO 处理效率;
存储系统的 IOPS 与存储节点上部署的数据处理单元(DPU)数量呈线性比例扩展,系统的 IOPS 随 DPU 部署数量线性扩展,表明其具备极佳的横向扩展能力。本方案采用的存储节点最多可以配置 8 张 DPU(当前测试环境配置 4 张),还可以实现 IOPS 性能翻倍以及网络带宽翻倍;
存储系统在使用小 IO size 时,并发大压力时延低至 266us, 在使用大 IO size 时,打满计算节点的网络物理带宽,时延还能始终保持在 1 毫秒以下。
MLPerf Storage v1.0 测试结果:
MLPerf™是影响力最广的国际 AI 性能基准评测,MLPerf™Storage 是针对 AI Storage 的基准性能测试,可以较为全面的评估测试 AI 应用程序的存储需求。MLPerf™Storage 基准测试通过运行一个分布式训练测试程序,模拟 GPU 计算过程,在此过程中真实的执行 AI 服务器对存储系统的读写访问,以此来测试存储系统能够支撑的最大 GPU 数量和带宽表现。
MLPerf Storage v1.0 于 2024 年 8 月推出,国内外一共有十三家从事高性能存储研发的厂家参与了测试并提交正式测试结果,其中包括 DDN (Lustre),华为,WekaIO,Hammerspace 等知名的分布式文件系统厂家。
本次我们选择了 ResNet50 模型 (主要用于图像分类和图像识别场景),在上述 1 存储节点 (JBOF)+1 计算节点的测试环境上进行了 MLPerf Storage v1.0 基准测试,测试的结果如下:
测试结果表明:
ExponTech 的新型 AI 存储方案具备全球领先的性能,单客户端能够支持的 GPU 卡的数量超过了所有参与了 MLPerf Storage v1.0 正式测试的厂商,位居全球第一;单客户端能够实现的存储带宽达到近 30GB/s, 位居全球第二;本次测试环境只有一个客户端节点 (计算节点),CPU 和内存配置较低,在运行 MLPerf Storage v1.0 的测试中已经达到了客户端节点的计算能力的瓶颈,但是还远远没有达到存储节点的存储能力的瓶颈。如果换用处理能力更强的计算节点来做测试,可以测试出更高的性能数据,即支持更多的 GPU 卡,实现更高的存储带宽。
总结
基于本次在真实的环境上的全面测试,总结一下 ExponTech 与合作伙伴 ScaleFlux, AIC 基于英伟达的 BlueField3 DPU 以及英伟达最新发布的 Spectrum-X 网络打造的新型 AI Storage 方案的关键特点和优势:
1.世界顶级性能,SPC-1 评测超越所有高端全闪存储阵列,打破世界纪录,MLPerf Storage v1.0 测试数据大幅度超越 WekaIO, DDN 等著名并行文件系统;
2.世界顶级容量密度,当前每 2U Storage Node 可实现超过 1.6PB 存储裸容量,明年可扩展至每 2U 超过 6.6PB,最大化数据中心空间的 AI 数据价值;
3.配置的 ScaleFlux CSD5000 NVMe SSD 具有盘内透明压缩解压缩能力,能够在不消耗额外系统资源,不影响性能的情况下实现存储裸容量的数倍放大,存储容量效率获得惊人的提升;
4.同一平台上同时支持高性能分布式块存储和文件存储等多种协议,除了支持 AI 的训练和推理场景,还可以覆盖数据汇集,数据准备,RAG 等 AI Pipeline 全场景,无须为 AI Pipeline 配置不同的存储方案以及反复进行数据拷贝移动,可以实现 AI 算力和存力的完全存算分离和独立扩展,具备更好的可管理性和效率;
5.强大的并行扩展性,存储节点及计算节点均可以独立的水平扩展,同时实现存储性能和容量的等比例扩展;
6.可靠性高,可维护性高,存储节点采用相比标准服务器更为精简的 JBOF,硬件故障率更低,同时 JBOF 内部采用冗余的硬件设计来保障可靠性,提升可维护性;
7.支持基于 RoCE 的超大规模组网,采用 RoCE 动态路由和细粒度的负载均衡实现更好的拥塞控制,基于标准以太网在大规模 RDMA 组网中实现高效带宽, 低抖动和超低时延;
8.优化的总体拥有成本 (TCO),高密度的存储节点 + 透明盘内压缩 + 新型软件定义存储软件的组合简化了硬件成本,大幅度提升了存储空间利用效率和读写性能,简化了管理,AI 客户将因此大幅度优化其 AI Storage 的总体拥有成本 (TCO);
9.基于此方案的 KV Cache 大规模持久化方案也即将推出,实现 AI 推理集群内的 K,V 向量的全局共享,能够以低成本高性能的大规模存储能力替代 AI 推理过程中 K,V 向量的大量重复运算,实现 AI 推理算力成本的大幅降低。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。