设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

人工智能的第三支柱:数据存储

2024/9/4 19:31:06 来源:之家网站 作者:- 责编:-

借助人工智能数据周期(AI Data Cycle)存储框架,释放数据的 AI 力量

西部数据公司副总裁兼中国区总经理蔡耀祥

如今,AI 无处不在。各个行业正通过对基础设施进行大量投资,来支持创新的应用和用例。我们大都对于时下 GPU、CPU 和内存这类以计算为主的基础设施有所耳闻,而

对于文本的 AI 训练相对简单,但当转向音频、图像以及视频时,所生成的数据量将会呈现指数级增长,对存储的需求自然而然会有很快的攀升。而且随着时间的推移,数据的总量也在持续增长。IDC 预计截至 2028 年,每年产生的数据总量将接近 400 ZB(泽字节,Zettabyte)。

在数据生成量不断增长的趋势下,数据存储技术对于人工智能数据周期(AI Data Cycle)中不同阶段基础设施和工作负载的容量、性能、能耗效益以及成本效益都至关重要。AI 系统在处理和分析现有数据的同时也会产生新数据,其中很多数据会因其功能性或娱乐性被保存。新型 AI 用例和更先进的模型令现有数据资源库和额外数据源对模型上下文和训练的价值更甚。数据的不断生成促成了更多的数据存储,而更多的数据存储又进一步推动数据生成,一个良性循环的人工智能数据周期就此诞生。

人工智能数据周期的六大阶段

<人工智能数据周期>

原始数据存档,内容存储:从各种来源安全高效地收集并存储原始数据,以用于训练模型。所收集数据的质量和多样性至关重要,为后续的所有阶段奠定了基础。

在此阶段,查找并收集数据集需要大容量存储,通常来说会用到大容量企业级 HDD(eHDD)。由于企业级 HDD 可以经济高效地存储巨量规模化数据,且拥有更低的 TCO,被视作是建立深度内容资源库的理想选择。全球线上和可访问的冷数据及温数据都主要通过它来保存。具体来说,选用单盘容量点更高的 HDD 能够帮助云和企业级用户提升存储密度,实现数据中心的规模化扩展,满足不断增长的容量需求。

数据准备和转换

这是一个对性能要求很高且存储密集的阶段,该阶段的存储选择从 HDD 转向了 SSD,从而建立高速数据湖以支持数据准备和转换。在该阶段,用户会部署采用大容量企业级 SSD(eSSD)的全闪存存储系统,以增强现有的基于 HDD 的资源库,或用于新的全闪存存储层。

AI 模型训练:AI 模型会在该阶段进行反复训练,从而基于训练数据做出准确的预测。具体来说,模型是在高性能超级计算机上进行训练的,而训练效率在很大程度上取决于最大化 GPU 利用率和专门的高性能存储。

从数据中心的角度来看,这一阶段的工作负载对计算性能的要求极高,所以需要我们再次转变存储策略。这一阶段理想的 SSD 是高性能、低容量、以计算为目的企业级 SSD,确保向 GPU 集成系统输入数据的环节不会因存储性能不足而受到影响。此外,在该过程中还有很多复杂的操作,如检验点、归档等,可能会根据计算状态,将整个数据集写回数据湖或进行检索。因此,计算密集型存储和基于闪存的数据湖在该阶段有时会混合应用。

界面交互:

这一阶段的存储重点在终端,比如在客户端设备、移动设备以及物联网设备。这些都是真正执行推理的地方。这里不仅有较高的性能需求来应对推理过程,也有更大的容量需求来应对新数据的产生。

兼顾性能和容量的客户端存储设备填补了这些需求。最终这些内容会回到基于 HDD 的长期内容存储系统中,无论是归档或云端的。换言之,PC 和笔记本电脑需要容量更大、性能更强的客户端 SSD(cSSD),手机、物联网系统和汽车会需要容量更大的嵌入式闪存设备,以在边缘已有的应用中增强 AI。

AI 推理引擎:第五阶段是奇迹实时发生的地方。在这个阶段,训练好的模型被部署到数据生产环境中,对新的数据进行分析并提供实时的预测或者生成新的内容。推理引擎的效率将直接影响 AI 响应的及时性和准确性。

这一阶段需要用于缓存的高性能 eSSD、用于高速数据湖的大容量 eSSD、大容量 cSSD 以及用于 AI 驱动边缘设备的嵌入式闪存。

新内容生成:最后一个阶段是新内容诞生的地方。AI 模型所带来的洞察分析经常会产生新的数据,这些数据因其价值或趣味性而被存储。尽管这一阶段标志着循环的结束,但与此同时生成的新数据又会被反馈到数据周期中,通过不断提升数据价值以用于未来模型的训练和分析,实现持续的改进和创新。

生成的内容将被存储到大容量 eHDD 中,在数据中心实现大容量存储、备份和归档。同时,大容量 cSSD 和嵌入式闪存设备也将用于存储边缘设备中额外由 AI 驱动的数据。

合理的存储产品组合,进一步优化 AI 领域投资效益

西部数据已战略性地调整闪存和 HDD 产品和技术路线图,帮助应对人工智能数据周期中每个关键环节的数据存储需求。

西部数据现已正式向指定客户出样具备行业领先容量的 32TB 企业级 ePMR HDD。全新的大容量 Ultrastar DC HC690 UltraSMR HDD 专为超大规模云和企业级数据中心的巨量数据存储需求设计。在人工智能工作流这类对大规模数据存储和低 TCO 有严格要求的应用场景下,该产品可发挥重要作用。此外,凭借先进的 ePMR 技术和 OptiNAND 技术、长远的产品规划和可预见的容量提升,西部数据可以帮助用户充分应对当前乃至未来 AI 应用对存储日益增长的需求。

<西部数据 Ultrastar DC HC690 UltraSMR HDD>

为满足市场对大容量 SSD 的需求,西部数据全新的企业级 SSD 将容量提升到了 32TB 和 64TB,并针对人工智能数据周期中第二阶段的高性能存储需求和其他大容量性能存储需求着重优化。全新 Ultrastar DC SN655 + 企业级 SSD 采用 PCIe Gen 4 接口,并集成了多项用于服务 AI 用例的软件特性和功能。

<西部数据 Ultrastar DC SN655+ 企业级 SSD>

针对人工智能数据周期第三、四、五阶段的高性能存储需求,西部数据推出了旗下首款企业级 PCIe Gen 5.0 解决方案 ——Ultrastar DC SN861 SSD,拥有市场领先的随机读写表现,容量高达 16TB,随机读取性能相比上一代产品提升约 3 倍,超低的延迟和非凡的响应速度尤其适用于大语言模型(Large Language Model, LLM)的训练、推理和 AI 服务部署。此外,更低的能耗能够提供更高的每瓦特 IOPS(IOPS / Watt),有助于企业进一步降低 TCO。PCIe Gen 5 带来的带宽提升满足了 AI 行业计算密集型工作环境对高速计算和低时延的需求。

<西部数据 Ultrastar DC SN861 企业级 SSD – U.2>

< 西部数据 Ultrastar DC SN861 企业级 SSD – E1.S >

AI 提速内容增长,数据存储未来可期

在数据中心,预计未来五年内,HDD 和企业级 SSD 都有显著的 EB 级增长机会。

为满足市场对大容量 SSD 的需求,西部数据全新的企业级 SSD 将容量提升到了 32TB 和 64TB,并针对人工智能数据周期中第二阶段的高性能存储需求和其他大容量性能存储需求着重优化。全新 Ultrastar DC SN655 + 企业级 SSD 采用 PCIe Gen 4 接口,并集成了多项用于服务 AI 用例的软件特性和功能

在客户端,无论是移动设备还是 PC 市场上,越来越多的支持 AI 以及 AI 驱动的 PC 和移动设备正在涌现。这些设备对性能的要求更高,同时由于需要处理和存储的数据量正不断增加,对大容量的存储需求也在上升。这些趋势共同推动了存储需求的大幅度增长,西部数据预计在未来五年内,PC 和笔记本电脑市场的 cSSD 需求会出现 25% 到 35% 的增长,智能手机的闪存需求会出现 40% 到 50% 的增长。

人工智能数据周期展示了这一持续生成数据和使用数据的循环,并阐述了这一循环是如何加速对高性能且可扩展的存储技术的需求。存储对管理大型 AI 数据集、高效重构复杂数据并推动进一步创新来说至关重要。西部数据深刻理解 AI 和数据存储之间的动态关系,在不断提供更大容量产品的基础上,为下一代 AI 工作负载所需要的极致性能和耐用性提供量身打造的存储解决方案。凭借持续丰富扩展的产品组合、长远的技术路线和不懈突破创新,西部数据将帮助用户释放 AI 的革新力量,创造更多价值。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知