随着 AI 技术从机器学习演进至深度学习, 并进一步迈向生成式 AI 的新阶段, 算法、算力及数据需求呈现出爆炸式增长态势。大模型爆发初期, 众多企业布局, 要求存储提供高带宽、高 IOPS 和低时延, 以确保模型能够快速有效地进行训练。而在模型的实际部署与应用过程中, 又需要实现数据的跨域、跨介质灵活调度, 以及高质量数据集的高效管理, 这对存储系统的灵活性、安全性及数据的可持续访问能力构成了新的挑战。
在近期举办的中国数据与存储峰会 AI + 存储协同发展论坛上, 浪潮信息分布式存储产品总监张业兴发表了题为“数聚存储, 智慧未来”的演讲。演讲中, 张业兴不仅回顾了过去一年人工智能领域的迅猛发展态势, 还深入阐述了浪潮信息在这一背景下如何精心布局新产品、新技术和新方案。
AI 时代: 存储的转型与重塑
人工智能已被提升至国家战略的高度, 成为驱动新质生产力发展的关键力量。张业兴指出, 数据作为一种新型生产要素, 不仅是劳动工具, 还能创造经济价值。随着数据的迅猛增长和摩尔定律的持续推动, 人工智能正步入一个爆发式增长的阶段, 特别是在 GPU 市场规模及智能算力领域, 展现出了惊人的增长潜力。据预测, 至 2028 年, 全球 GPU 市场规模有望达到 2461.5 亿美元, 而中国市场的规模也将攀升至 459 亿美元, 年复合增长率高达 32.8%。这一趋势清晰地表明, 人工智能正引领着第四次工业革命, 对经济社会产生着广泛而深远的影响。
在人工智能时代的大背景下, 存储系统的角色已悄然转变, 它不再是单纯的数据存储容器, 而是成为了推动人工智能发展的核心组件。随着大模型技术的蓬勃发展, 存储系统正面临着前所未有的挑战。在大模型市场的初期布局中, 已有超过 400 家厂商争相涌入, 模型训练的“速度”成为了竞争的关键。为了提高 GPU 的利用效率, 存储系统必须能够提供 TB 级的高带宽和百万级的高 IOPS, 以确保模型训练的高效运行。
此外, 随着模型在各行业的落地, 数据的跨域和跨介质调动变得至关重要, 存储系统需要实现全局命名空间的管理, 以支持大规模数据的高效汇集和利用。同时, 在大模型的行业化落地过程中, 为了提升通用模型的专业化能力, 高质量且可重复利用的数据集成为了不可或缺的资源。数据的安全存储与可持续性访问能力成为了存储系统必须满足的重要要求。
AS13000G7: 解锁存储潜能, 赋能 AI 未来
针对上述挑战, 浪潮信息推出了分布式融合存储平台 AS13000G7, 在性能优化、融合互通、韧性保障等多个维度进行了技术创新。
在性能优化方面,AS13000G7 通过数控分离架构, 减少了数据在转发和拷贝过程中的延迟, 单流带宽可达 15GB/s, 单节点带宽超过 100GB/s, 相比传统数控一体架构性能提升 60% 以上。此外,AS13000G7 能够智能识别大 IO 和小 IO, 通过切片处理和聚合处理, 将不同规模的数据形成统一的数据团, 并存入全局缓存中, 实现小 IO 性能提升 5 倍。同时, 数据缓存预读功能能够在训练过程中提前加载热点数据, 进一步提升数据加载速度。另外,AS13000G7 还设计了全用户态的轻量级 IO 站, 利用多任务并行和无锁 IO 处理技术, 实现了延迟降低 40%, 训练数据加载时间减少 30%。
在近期发布的 MLPerf™Storage v1.0 AI 存储基准测试中,AS13000G7 参与了八项测试并获得了五项全球第一的成绩, 如 3D-UNet 测试中, 支持 264 个模拟加速器,GPU 利用率超 90% 时提供 360GB 每秒带宽, 单节点带宽超 120GB 每秒; 在 CosmoFlow 模型测试中, 样本读取时间极短, 单客户端和多客户端分别提供了 18GB/s 和 52GB/s 的带宽。
在融合互通方面,AS13000G7 支持多种接入协议, 如 NFS 和 S3 等, 并通过复原数据管理实现文件和对象数据的协议互通、语义无损以及性能一致, 避免了数据格式转换和多份存储的问题, 为用户节省了高达 50% 的存储空间。同时,AS13000G7 还建立了全局统一命名空间, 纳管所有数据, 实现跨域、跨介质和跨协议的灵活调动, 提供统一数据视图, 并支持 10 亿级文件秒级检索, 有效解决了数据孤岛问题, 方便用户数据访问与管理。
在韧性保障方面,AS13000G7 定期进行亚健康检测, 并通过内部冗余保护机制实现免迁移快速重构, 将 TB 级重构时间降至 5 分钟内, 每次故障恢复时间降低 90%。此外,AS13000G7 运用 AIOps 算法预测磁盘故障、容量趋势、性能趋势和 SSD 寿命, 其中磁盘故障预测准确率达 98% 以上, 误报率仅 0.007%。在数据安全层面,AS13000G7 设置了五层系统防护, 采用快筛机器学习和深筛深度学习算法来检测恶意软件, 漏报率仅为 0.029%, 误报率为 0.33%。
面向大模型应用, 基于 AS13000G7 的 AI 存储解决方案, 整合不同盘位存储设备形成统一资源池, 提供高性能、高利用率和高韧性, 满足数据全生命周期需求。结合 AI 资源调度平台, 提升数据预读加载效率 30%, 已服务众多 AIGC 客户。
在上海某高校的应用案例中, 由于该校拥有多个与 AI 相关的学科, 数据导入呈现出多元多态的特点, 业务需求也涵盖了数据的汇集、处理、训练和推理等多个环节。浪潮信息为其提供 32 节点 GPU 服务器作为计算支持, 并配置 20 个节点的 AS13000G7 24 盘位全闪节点作为存储资源池, 实现对象文件融合存储, 降低总体拥有成本 (TCO) 达 30%, 大带宽高 IOPS 的特性支持了模型毫秒级读写, 进一步缩短训练等待时间 40%。
从市场表现来看, 浪潮信息在存储领域取得了显著的成就。2024 年上半年, 浪潮信息存储装机容量位列全球前三, 企业级存储销售额在中国市场排名第二, 全闪存储销售额同样在中国市场排名第二。
展望未来, 浪潮信息将继续凭借其先进的技术和解决方案, 在全球和国内存储市场中保持重要地位, 并持续推动数据存储行业的发展。同时, 浪潮信息也将致力于助力各行业在人工智能时代实现数字化转型和智能化升级, 有望在技术创新和市场拓展方面取得更大的突破。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。