设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

浪潮信息 Lance SUN:高效数据编排,加速数据在 AI 场景释放潜能

2024/7/3 11:58:36 来源:之家网站 作者:- 责编:-

AIGC 作为当下最火的技术话题,其业务流程涉及到数据的采集、处理、训练、推理和归档五个阶段,每个阶段都面临着不同的存储需求和挑战。随着数据量的爆炸性增长,特别是随着多模态数据的快速增长,对存储系统的扩展性和服务兼容性也提出了新的挑战。

在 2024 年数据基础设施技术峰会上,浪潮信息分布式存储产品线架构师 Lance Sun 博士发表了题目为“高效数据编排,加速释放数据潜能”的主旨演讲,详细讨论了高效数据编排对于解决上述挑战,并释放数据潜能的重要性。

AIGC 带来的存储挑战凸显了数据的重要性首先,Lance Sun 博士详细介绍了 AIGC 对存储提出的需求和挑战,让我们对 AIGC 的业务流程和对数据存储的需求有了更深入的认识。

第一个是巨量多模态数据的挑战。很多大语言模型都采用了来自 Common Crawl 的数据集,这个组织在过去 17 年已经采集了 2500 亿网页,现在还在持续收集更多。IDC 预测,到 2025 年,全球数据总量将超过 175ZB, 这种增长对存储系统的多样性和扩展性带来了挑战。

第二个挑战是对超大读写带宽的需求。在训练阶段,checkpoint 的管理是关键,良好的存储性能应在 12 分钟内完成 checkpoint 的读写操作,确保不拖慢整个训练过程。同时,由于 GPU 成本高昂,更高的存储性能可以减少显卡的等待时间,减少资源浪费。

第三个挑战是对于读写 IOPS 的更高需求。千亿级文件的快速访问对 IOPS 有着极高要求,在某些采用 shuffle 洗牌策略的训练过程,如果 IOPS 性能不够,会导致元数据服务器产生大量的通信阻塞,同时会造成 GPU 集群等待,影响训练效率,造成资源浪费。

第四个挑战在于数据全生命周期管理。在数据清洗和标注算法日益发展的今天,数据作为企业的核心资产,企业需要对数据进行长期保存。于是,如何将数据以较低的成本安全存储起来,也成为更重要的课题。

为了说明高质量数据的重要性,Lance Sun 博士还提到了 ImageNet 数据集。作为高质量的数据集,它极大地推动了深度学习算法的发展。2012 年,AlexNet 在 ImageNet 挑战赛上取得成功,这不仅验证了深度学习模型处理复杂视觉任务的能力,也激发了后续研究和多种新算法的产生。

由此可见,数据的采集和高质量的数据清洗,对 AI 的发展至关重要的。过去十多年的时间里,语言类模型的数据集规模,模型参数规模,AI 芯片计算能力和数据存储需求都发生了显著变化。

AIGC 在数据归集面临的挑战与浪潮信息的解决之道在数据存储方面,随着数据集规模和多样性增加,越发依赖更大规模的存储服务器集群。Lance Sun 博士介绍称,很多传统行业都积累了大量数据,这些数据需要在不同的存储系统间进行高效的数据流转以支持 AI 和大数据分析,这在现有的存储架构中造成了数据流动的效率问题。

事实上,多数据中心和异构存储环境中数据迁移面临很多挑战,对此,Lance Sun 博士总结了三点:

第一点,数据访问分散。数据迁移的过程对用户来说是不透明的,严重依赖第三方迁移软件,而且受网络波动和存储性能的影响,容易导致数据迁移时间过长,增加操作的不确定性和复杂性。

第二点,空间和时间成本的浪费。迁移过程常用纠删或副本机制来提高可靠性,但这会导致时间和空间成本大幅增加。此外,这一过程还严重依赖于第三方迁移软件的性能,不同存储平台的使用容量差异可能导致数据副本迁移时出现容量不均衡问题。

第三点,运维复杂性增加。由于不同存储产品的特性差异,使得存储厂商各自发展出不同的运维管理系统,数据的频繁迁移或长时间迁移导致数据管理混乱,导致运维时间和成本显著增加。

为了应对多数据中心和异构存储环境中数据管理和迁移挑战,浪潮信息存储进行了大量工作,基于 AS13000 构建了一套全局数据管理平台。

在全局数据管理平台的最上层,通过一个统一的全局命名空间提供用户视角的完全统一,确保所有数据都可以通过一个统一的入口进行访问和管理,极大地简化了数据操作流程。

第二个层面,系统支持多种标准协议接口,包括 Linux 的 NFS、对象存储的 S3、大数据的 HDFS、容器化的 CSI 接口以及 Windows 环境下的 SMB 协议。这样的设计使得平台能够广泛兼容各种应用和环境,满足不同场景的需求。

最后一层,AS13000 引入了智能数据编排和缓存系统。智能数据编排引擎利用人工智能算法自动让数据在热、温、冷存储之间的流转,优化数据存储效率。而高效的缓存系统可以为短期内频繁使用的极热数据提供快速访问能力,加速数据的流转。

最终,用户可以基于 AS13000 的全局数据管理平台实现数据在任何地点,任何时间以任何类型可视可管可流动。

Lance Sun 博士还指出了市场上一些方案的不足。比如,一些方案在数据采集阶段使用了混闪对象存储,而在训练阶段使用全闪存储技术。然而,数据在两个存储集群的流转非常低效,数迁移过程中,经常由于网络波动造成文件断传。

相比之下,AS13000 由于在一套系统内引入了多协议融合互通技术,直接省去了数据迁移的过程,大大提高了训练数据的准备效率,以确保数据在训练和处理阶段的高效率和低延迟访问。

AIGC 存储的技术展望 AIGC 技术的影响力日益扩大,各大存储厂商对此高度重视,存储系统的创新和演进均将 AIGC 作为核心考量。在演讲的最后,Lance Sun 博士详细介绍了浪潮信息存储在 AIGC 领域的未来发展关键方向和技术动向,并表示浪潮存储将持续深度融入 AI 生态系统。

在行业技术方面,GPU 直连存储技术已在众多文件系统层面广泛应用,其在大文件读写方面的性能表现尤为出色。浪潮信息与英伟达及业界厂商紧密合作,致力于推动完整技术体系和标准的落地。

在行业基准评测方面,浪潮信息积极参与权威的 AI 性能测试基准 —MLperf Storage 评测,并在多项负载性能评测中表现优异,帮助企业选择最适用于 AI 场景的存储系统。

存储的安全问题同样不容忽视。英伟达在 2024 年的 GTC 大会上提到包括加密计算在内的多种安全技术,而在存储层面,同样需要提供强有力的数据保护措施。浪潮信息存储正在多租户权限隔离、防勒索等数据保护技术领域进行深入探索。

谈到未来发展,Lance Sun 博士表示,存储性能的持续优化是浪潮信息存储的核心目标。浪潮信息将继续通过软硬件结合的持续创新,力求在智算产业和 AI 产业中实现快速落地,推动整个行业的进步。

2024 年,AIGC 依然是最热技术话题,其迅猛的发展速度和广阔的应用前景吸引了众多关注和创新力量。凭借在数据存储领域的持续创新和深耕,浪潮信息正站在这场技术革新的前沿。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 辣品 - 超值导购,优惠券 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 魔方 酷点桌面 Win7优化大师 Win10优化大师 软媒手机APP应用