助力 AI 产业革新！浪潮信息重磅推出 AIGC 存储解决方案

2024/7/3 11:58:30 来源：之家网站作者：- 责编：-

评论：

6 月 28 日，浪潮信息“元脑中国行”全国巡展杭州站顺利举行。会上，浪潮信息重磅推出基于新一代分布式存储平台 AS13000G7 的 AIGC 存储解决方案。通过加持 EPAI / AIStation 的资源调度能力、新一代分布式存储 AS13000G7 自身产品优势，新方案从容应对大模型应用对存储性能、容量以及数据管理等方面的苛刻要求。同时，浪潮信息尝试性提出 GPU 计算集群算力与存储集群聚合带宽的推荐配比，实现检测点数据 60 秒内写入和读取恢复，提高大模型训练效率。

大模型时代，数据基础设施挑战升级

随着数字经济的蓬勃发展，AI 技术正逐渐成为推动企业业务变革和创新的重要动力，大模型已经成为驱动数字经济深度创新、引领企业业务变革、加速形成新质生产力的重要动能。

会上，存储产品线副总经理刘希猛表示，随着大模型参数量和数据量的极速膨胀，多源异构数据的传、用、管、存，正在成为制约生成式 AI 落地的瓶颈之一，在 AI 大模型数据归集、训练、数据归档与管理等阶段，面临着数据归集时间长、模型训练效率低、数据管理复杂度高等针对数据基础设施的新挑战，用户亟需构建支持多协议、高带宽、低延迟、数据高效流转的大模型存储底座。

作为率先在业界提出分布式融合存储的厂商，浪潮信息聚焦行业客户的大模型落地需求与核心痛点，打造基于 NVMe SSD 高效适配和优化的分布式全闪存储 AS13000G7-N 系列。依托自研分布式文件系统构建了新一代数据加速引擎 DataTurbo, 在缓存优化、空间均衡、缩短 GPU 与存储读取路径等方面进行了全面升级，提供 TB 级带宽、千万级 IOPS、EB 容量，满足大模型存储在性能和容量方面的要求。

剑指 AIGC 主战场，打造面向大模型应用的存储解决方案

在大模型数据处理全流程中，要想使训练效率达到极致，减少不必要的资源浪费，算力和存力需要均衡配置，训练阶段的数据读写性能成为发挥存力最大作用的关键。而想要提升存储效率、降低模型训练成本，必须要在存储技术上进行创新。对此，浪潮信息推出基于 AS13000G7 的 AIGC 存储解决方案，该方案通过浪潮信息 AIStation 人工智能平台进行智能资源调度和深度数据管理，与 EPAI“元脑企智”平台深度集成，数据在热、温、冷、冰四个存储资源池中高效流动，最大限度满足 AIGC 不同阶段对高性能、易管理的存储需求。首先，通过与上层 EPAI / AIStation 的深度定制，依托智能数据预读和智能故障处理等技术，为行业用户提供经验证的、更成熟的存储整体方案，目前已累计服务 AIGC 用户超 100 家，其中百 PB 级用户超 10 家；其次，通过全局命名空间、多协议实时互通、数据冷热分层等技术实现横向数据自由流动，提升存储效率和降低用户 TCO 20% 以上，方案更加简约；最后，通过 AS13000G7-N 系列强大的智能缓存优化、智能空间均衡和 GPU 直通存储等优势实现纵向数据高效访问，缩短大模型训练时间 50%, 方案更加高效。凭借成熟的深度定制能力、卓越的产品性能优势以及数据全生命周期管理能力，浪潮信息基于 AS13000G7 的 AIGC 存储解决方案充分满足大模型训练阶段高性能、归档阶段低成本的存储需求。

助力 AI 产业革新！浪潮信息重磅推出 AIGC 存储解决方案

算存黄金比例，加速大模型训练

倪光南院士曾提出，“对于 AI 智能计算中心来说，要想均衡配置存力、算力和运力，一定要注意比例相当，不能失调，才能取得最大的经济和社会效益。”为了最大限度发挥大模型潜能，解决存算比例不平衡的难题，需要制定最佳的存算比例，保障模型的高效训练。浪潮信息最新发布的 AIGC 存储解决方案尝试给出了模型训练时 GPU 算力与全闪存储性能、容量的配置推荐。

性能方面: 大模型训练过程中检测点文件读写对存储系统读写性能带来巨大挑战。万亿模型需要 12~13TB 模型参数，写检测点需要耗费大量的时间，未经优化的存储集群一次写入检测点需要 3 个小时。基于对存储集群读写带宽与大模型检测点恢复时间的分析，为提高大模型的训练效率，实现检测点数据 60 秒以内的写入和读取恢复，前端 GPU 计算集群算力 (单位采用每秒千万亿次浮点预算 PFLOPS) 与存储集群聚合带宽 (单位采用每秒千亿字节也就是常说的 TB / s) 的推荐配比为 35:1。当然，如果期望获取更低的 CHK 写入和恢复时间，可以继续增加集群带宽，但其收益率相对较低。

全闪容量方面: 模型训练场景中，除了初始加载的训练数据集要存放在全闪池中，还有过程训练中的 CHK 数据要保存。随着万卡时代的到来，当出现掉卡或训练中止现象，用户通常会每隔一段时间就保存一次 Check point 数据，可以用来恢复训练或用于模型评估和推理。经过一年多的实践，建议大模型用户 2~4 小时做一次 Checkpoint, 检测点数据保存两周时间，实现存储集群容量的合理利用。通过模型分析，结合产品特点，便可推算出全闪热存储池的存储配置要求。当然，用户需求还会涉及到用于收集原始数据、准备原始数据的温存储池，用于归档的冷数据存储池。这些温冷池的容量一般在热存储池容量的 10-20 倍左右，达百 PB 级。

助力 AI 产业革新！浪潮信息重磅推出 AIGC 存储解决方案

“元脑中国行”杭州站现场吸引了来自天目山实验室、网易伏羲、英特尔等 300 余位专家学者、产业领袖、行业客户，现场围绕生成式人工智能、Al for Science、大模型的 AIGC 应用等行业热点话题进行分享。浪潮信息还在会上举行了“EPAI 种子计划”签约仪式，名都科技、启帆信息、图灵软件、天健远见等浙江区域的 10 位元脑伙伴正式加入“EPAI 种子计划”，共同加速 AI 应用创新发展，推动大模型应用落地实践。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

助力 AI 产业革新！浪潮信息重磅推出 AIGC 存储解决方案

相关文章