浪潮信息 AS13000G7 荣获 MLPerf™ AI 存储基准测试五项性能全球第一

2024/9/29 14:51:52 来源：之家网站作者：- 责编：-

评论：

9 月 25 日,MLCommons 协会发布最新 MLPerf™Storage v1.0 AI 存储基准测试成绩。浪潮信息分布式存储平台 AS13000G7 表现出众, 在 3D-UNet 和 CosmoFlow 两个模型共计八项测试中, 斩获五项冠军。

MLPerf™Storage v1.0 AI 存储基准测试成绩

MLPerf™是影响力最广的国际 AI 性能基准评测, 由图灵奖得主大卫・帕特森 (David Patterson) 联合顶尖学术机构发起成立。2023 年推出 MLPerf™存储基准性能测试, 旨在以架构中立、具有代表性和可重复的方式衡量机器学习 (ML) 工作负载的存储系统性能。该测试通过准确建模 ML 工作负载所产生的 I/O 模式来帮助解决存算平衡问题, 为不同存储系统和不同加速器类型的混合和匹配提供了灵活性, 为 ML / AI 模型开发者选择存储解决方案提供权威的参考依据。

本次 MLPerf™存储基准评测 (v1.0) 吸引了全球 13 家领先存储厂商和研究机构参与。该评测围绕医学影像分割、图像分类、宇宙学参数预测三大 AI 存储应用场景, 采用主流的 3D-Unet、ResNet50、CosmoFlow 三类模型, 在 GPU 利用率高达 90% 或 70% 的条件下, 以带宽和支持的模拟 GPU (模拟加速器) 数量为关键性能指标, 评估单客户端或集群模式下存储系统的性能表现。

本次测试, 浪潮信息采用 3 台 AS13000G7 搭建分布式存储集群, 搭载 ICFS 自研分布式文件系统, 在 3D-UNet 和 CosmoFlow 两大评测任务中共获得五项最佳成绩。其中, 在图像分割 3D-UNet 多客户端 2 评测任务中, 服务于 10 个客户端 264 个加速器, 集群聚合带宽达到 360GB/s, 单个存储节点的带宽高达 120GB/s; 在宇宙学分析 CosmoFlow 单客户端 2 和多客户端 2 评测任务中, 分别提供了 18 GB/s 和 52 GB/s 的带宽最佳成绩。

近年来, 浪潮信息基于存算协同的理念, 持续加大存储研发投入, 从整体架构到各技术栈持续创新, 优化升级存力, 提升了 GPU 算力整体性能表现, 实现了模型训练数据处理的即时性, 消除了 GPU 资源闲置 (即“饥饿 GPU”现象), 全面提升大模型训练效率。

■架构层面, 采用全新数控分离架构。数据面和控制面完全解耦, 控制面实现数据管理和访问, 数据面读写操作直通到盘, 达到 120 GB/s 的单存储节点的超高性能, 单存储节点支撑 5 台 8 卡计算节点规模, 同时计算集群 GPU 利用率 90% 以上;

■软件层面, 通过多路并发透传技术, 有效减少 I/O 操作中频繁的上下文切换, 降低单次 I/O 时延 50%, 同时达到高并发下时延稳定性。本次测试中 1430 个高并发读线程支撑下, 保证每个线程单次 I/O 的时延均在 0.005 秒,AI 端到端训练中 I/O 占比低于 10%。此外, 通过元数据 VRANK 技术, 达到单个元数据进程多单元并发处理, 提供高性能元数据服务;

■软硬协同层面, 通过内核亲和力调度,I/O 请求动态调整, 增强文件系统与计算节点亲和性, 确保负载均衡, 将数据移动与多核 CPU 之间的访问效率提升 400%。

浪潮信息是全球领先的存储供应商, 存储装机容量连续 3 年稳居全球前三、中国第一, 是承载中国用户数据最多、数据存力贡献最大的存储厂商。近年来, 浪潮信息积极拥抱 AI 生态, 专注于构建面向人工智能的存储平台, 通过精准优化存算资源配置与持续强化技术创新, 全面推进 AI 产业化和产业 AI 化进程, 力争打造 AI 存储的理想之选。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

浪潮信息 AS13000G7 荣获 MLPerf™ AI 存储基准测试五项性能全球第一

相关文章