业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

量子位 2023/7/2 15:26:00 责编：梦泽

评论：

11 分钟内训练一遍 GPT-3，8 秒训完 BERT。

这就是英伟达给 AI 圈的一点“小小震撼”。

在最新 MLPerf 训练基准测试中，英伟达 H100 集群，横扫八项测试，全部创下新纪录，并且在大语言模型任务中表现尤为突出！

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

在大语言模型任务中，H100 集群的加速性能逼近线性增长。

即随着集群处理器数量增加，加速效果也几乎同比增加。

这意味着在集群内 GPU 之间的通信效率非常高。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

除此之外，H100 还完成了推荐算法、CV、医学图像识别以及语音识别等任务，是唯一一个参加 8 项测试的集群。

而在算力就是生产力的时代下，这波成绩意味着什么，懂得都懂。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

据悉，本次测试系统由英伟达和 Inflection AI 联合开发，在云厂商 CoreWeave 上托管。

单节点性能增长明显

这次 MLPerf Training v3.0 中增加了两项新任务：

大语言模型（基于 GPT-3）

推荐算法

这意味着测试任务包含了更大的数据集和更先进的模型。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

如上刷新各项记录的，是由 3584 块 H100 组成的超大集群。

它的具体成绩如下：

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

这是本轮测试中，英伟达拿出的最大集群。

实际上他们还提交了一个包含 768 块 H100 的集群进行测试，并分别在云上和本地部署。

结果显示二者性能几乎完全相同。

更进一步还论证了随着集群中显卡数量的增加，其性能提升可以接近线性增长。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

（NVIDIA Pre-Eos 为本地部署，NVIDIA+CoreWeave 为云上部署）

除此之外，这轮测试中英伟达还刷新了单节点加速记录。

和 6 个月前 MLPef Training v2.1 的数据比较，单个 DGX H100 系统（8 块 H100 组成）在各项任务中平均提速 17%。

和 A100 Tensor Core GPU 相比，最高能提速 3.1 倍（BERT 任务）。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

这些加速效果的实现，主要得益于两个方面。

一方面是 H100 本身就足够强悍。

H100 基于最新 Hopper 架构，采用台积电 4nm 工艺，集成 800 亿个晶体管，较 A100 增加了 260 亿个。

内核数量达到前所未有的 16896 个，是 A100 的 2.5 倍。

由于面向 AI 计算，H100 中专门搭载了 Transformer Engine，让大模型训练速度可直接 ×6。

另一方面则是依赖集群内的加速网络。

这里使用的是英伟达 Quantum-2 InfiniBand 网络，是该网络架构的第七代。

官网介绍，加速网络能够提供软件定义网络、网络内计算、性能隔离、优越加速引擎、RDMA 和最快达 400Gb / s 的安全加速。

据悉，共有 90 个系统参与最新一轮测试，其中 82 个使用了英伟达的 GPU，英特尔方面有 7 个系统参与。

英特尔的加速系统使用了 64-96 Intel Xeon Platinum 8380 处理器和 256-389 Intel Habana Gaudi2 加速器。

其高配系统完成 LLM 的训练时间为 311 分钟。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

基于这次报告的测试结果，有分析师表示他感受到的最大震撼不是 H100 本身的性能，而是在云上训练 AI 实现的卓越效果。

那么这次和英伟达合作的云厂商 CoreWeave 是谁？联合开发系统 Inflection AI 又来者何人？

计算集群还会进一步扩大

首先来看 CoreWeave。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

它成立于 2017 年，是一家大型云厂商，号称提供业内最快、最灵活的大规模 GPU 计算资源，提供渲染、机器学习等云上方案，速度比大型公共云快 35 倍，成本低 80%。

而这家云厂商很受科技巨头青睐，英伟达在此之前没少 cue 过它。

5 月，CoreWeave 拿下 2 亿美元融资，主要来自对冲基金 Magnetar Capital，B 轮总融资额达到 4.21 亿美元。

6 月，有消息称微软与 CoreWeave 签署 AI 算力协议，用于计算基础设施，未来数年内的投资金额可能数十亿美元。

英伟达也向 CoreWeave 投资了 1 亿美元，4 月时它的估值为 20 亿美元。

另一家 AI 初创公司 Inflection AI 由 DeepMind 创始成员穆斯塔法・苏莱曼（Mustafa Suleyman）等人创立。

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

这家公司成立于 22 年 3 月，已拿下 2.25 亿美元融资，估值超 12 亿美元。

公司已经开发出了一个大语言模型 Pi，正是在 H100 集群上训练出来的。

据了解，Pi 的定位是帮助人类更好和计算机交互，它能通过聊天内容来逐渐了解用户，然后提供更加个性化的回答，类似于个人智能管家的感觉。

Inflection AI 的最新 Blog 里表示，基于目前的合作，他们计划在未来几个月内进一步扩大底层计算基础设施的规模。

参考链接：

[1]https://blogs.nvidia.com/blog/2023/06/27/generative-ai-debut-mlperf/?continueFlag=685ee2dc8db6455efed731baa85e2741
[2]https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
[3]https://www.forbes.com/sites/stevemcdowell/2023/06/27/nvidia-h100-dominates-new-mlperf-v30-benchmark-results/?sh=62b226c35e99

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

单节点性能增长明显

计算集群还会进一步扩大

相关文章