业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 智能时代>人工智能

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

新智元 2025/2/15 13:39:23 责编：清源

评论：

全球有多少 AI 算力？算力增长速度有多快？在这场 AI「淘金热」中，都有哪些新「铲子」？AI 初创企业 Epoch AI 发布了最新全球硬件估算报告。

AI 的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元（TPU）。

据不完全统计，目前全球超过 140 款 AI 加速器，用于开发和部署深度学习时代的机器学习模型。

Epoch AI 带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

除了传统硬件厂商英伟达、AMD 等纷纷推出加速卡，一些新兴势力开始「造芯」，算力持续提升。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

2008 至 2024 年全球机器学习硬件的计算能力示意图

除了 GPU，硬件类型也丰富了起来。比如，出现了专门处理张量计算的 TPU（张量处理单元，Tensor Processing Unit）。

报告的主要结论，总结如下：

总量每年增长 43%，价格下降 30%。
低精度计算成为主流。
顶级硬件能效每 1.9 年翻一番。
八年间，训练大型模型所需的处理器数量增加了 20 多倍。
全球 NVIDIA 支持的计算能力平均每 10 个月翻一番。

关键发现：ML 硬件的「摩尔定律」

ML 硬件每年增长 43%

以 16 位浮点运算衡量，机器学习硬件的性能以每年 43% 的速度增长，每 1.9 年翻一番。32 位性能也存在类似的趋势。

优化机器学习数字格式和张量核心提供了额外的改进。

驱动因素还包括晶体管数量的增加和其他半导体制造技术的进步，以及针对 AI 工作负载的专门设计。这种改进降低了每 FLOP 的成本，提高了能源效率，并实现了大规模人工智能训练。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

机器学习硬件在不同精度下的峰值计算性能

性价比每年提升 30%

每美元性能提升迅速，并且任何给定精度和固定性能水平的硬件每年都会便宜 30%。与此同时，制造商不断推出更强大、更昂贵的硬件。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

单位时间单位价格下的 FLOP

低精度格式是趋势

在使用针对人工智能计算优化的张量核心和数据格式时，GPU 通常速度更快。

与使用非张量 FP32 相比，TF32、张量 FP16 和张量 INT8 在总体性能趋势中平均提供约 6 倍、10 倍和 12 倍的性能提升。

一些芯片甚至实现了更大的加速。例如，H100 在 INT8 时的速度比在 FP32 时快 59 倍。

自推出以来，这些改进约占整体性能趋势改进的一半。随着开发人员利用这种性能提升，使用较低精度格式（尤其是张量 FP16）训练的模型已经变得很常见。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

能效每 1.9 年翻一番

根据历史数据，顶级 GPU 和 TPU 的能效每 1.9 年翻一番。

就 tensor-FP16 格式而言，效率最高的加速器是 Meta 的 MTIA（每瓦高达 2.1x10^12FLOP/s）和 NVIDIA H100（每瓦高达 1.4x10^12FLOP/s）。即将推出的 Blackwell 系列处理器可能会更有效率，具体取决于其功耗。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

模型也各有所爱

在 Epoch 的数据集中，NVIDIA A100 是用于高引用或最先进人工智能模型的最常用的硬件，自发布以来已用于 65 个著名 ML 模型。

其次是 NVIDIA V100，用于训练 55 个著名模型，其次是谷歌的 TPU v3，用于 47 个。

然而，估计 NVIDIA H100 到 2023 年底的销量已超过 A100，因此它可能在不久的将来成为训练模型最受欢迎的 GPU。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

不同加速器训练的知名模型数量

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

2019 年至今，不同领域大模型训练所需算力比较

训练集群规模猛增

用于训练大型语言模型（LLMs）的处理器数量的显著增长。

Google NASv3 RL 网络 (2016): 使用了 800 个 GPU 进行训练。
Meta Llama 3.1 405B (2024): 使用了 16,384 个 H100 GPU 进行训练。

这意味着在短短八年间，训练大型模型所需的处理器数量增加了 20 多倍。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

四大「算力帝国」？

谷歌、微软、Meta 和亚马逊拥有相当于数十万个 NVIDIA H100 的 AI 算力。

这些计算资源既用于他们内部的 AI 开发，也用于云客户，包括许多顶级 AI 实验室，如 OpenAI 和 Anthropic。

谷歌可能拥有相当于超过一百万个 H100 的计算能力，主要来自他们的 TPU。

微软可能拥有最大的 NVIDIA 加速器库存，约为 50 万个 H100 当量。

大量的 AI 计算能力由这四家公司以外的集团共同拥有，包括其他云公司如 Oracle 和 CoreWeave，计算用户如特斯拉和 xAI，以及各国政府。

之所以重点介绍谷歌、微软、Meta 和亚马逊，因为他们可能拥有最多的计算能力，而其他公司的数据公开较少。

初步工作发现，截至 2024 年中，谷歌 TPU 的总算力大约是英伟达芯片的 30%。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

英伟达每年不止翻一番

自 2019 年以来，NVIDIA 芯片的总可用计算能力大约每年增长 2.3 倍，从而能够训练越来越大的模型。

也就是说，全球 NVIDIA 组成的计算能力平均每 10 个月翻一番。

Hopper 这一代 NVIDIA AI 芯片目前占其所有 AI 硬件总计算能力的 77%。按照这种增长速度，旧的芯片型号在其推出后大约 4 年左右，对累计计算量的贡献往往会低于一半。

请注意，此分析不包括 TPU 或其他专用 AI 加速器，因为这方面的数据较少。TPU 可能提供与 NVIDIA 芯片相当的总计算能力。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

按芯片型号分解，发现目前大约 77% 的 NVIDIA FLOP/s 来自 Hopper 代际的 GPU，如 H100。

目前估计 NVIDIA GPU 可提供 4e21 FLOP/s 的计算能力，约相当于 400 万个 H100。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

注意：这些估计基于 NVIDIA 的收入申报文件，并假设不同时代芯片的分布随时间变化的模式与 AI 集群数据集中的模式相同。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

英伟达 23-24 年季度财报

此外，报告发现自 2019 年以来，计算能力的累计总和（考虑折旧）每年增长 2.3 倍。

但仅考虑数据中心销售额，而忽略 NVIDIA 收入报告中「游戏」（Gaming）销售额带来的计算能力。

公开数据集

Epoch 同时公布了机器学习硬件数据集和数据分析源代码。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

https://epoch.ai/data/machine-learning-hardware-documentation#overview

详细数据分析流程，参见下列 NoteBook。

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

参考资料：

https://epoch.ai/data/machine-learning-hardware

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

全球 AI 算力报告出炉：LLM 最爱 A100，谷歌坐拥超 100 万 H100 等效算力

ML 硬件每年增长 43%

性价比每年提升 30%

低精度格式是趋势

能效每 1.9 年翻一番

模型也各有所爱

训练集群规模猛增

四大「算力帝国」？

英伟达每年不止翻一番

公开数据集

相关文章