首页

设置

日夜间

随系统

浅色

深色
主题色
黑色

首页 > 智能时代>人工智能

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

2023/9/9 15:13:07 来源：IT之家作者：故渊责编：故渊

评论：

感谢IT之家网友溯波的线索投递！

IT之家 9 月 9 日消息，英伟达今天宣布推出名为 TensorRT-LLM，是一个深度优化的开源库，能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

英伟达目前已经和开源社区合作，利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术，实现 AI 内核来优化其 GPU，可以加速 GPT-3（175 B），Llama、Falcom（180 B）和 Bloom 模型。

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案，允许工作独立于其他任务进入和退出 GPU。

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

该方案允许同一 GPU 在处理大型计算密集型请求时，动态处理多个较小的查询，提高 GPU 的处理性能，可以让 H100 的吞吐量加快 2 倍。

在性能测试中，英伟达以 A100 为基础，对比了 H100 以及启用 TensorRT-LLM 的 H100，在 GPT-J 6B 推理中，H100 推理性能比 A100 提升 4 倍，而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

在 Llama 2 中，H100 推理性能是 A100 的 2.6 倍；而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

IT之家在此附上报告原文，感兴趣的用户可以深入阅读。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

相关文章

关键词：英伟达

软媒旗下网站： IT之家最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件： 软媒手机APP应用魔方最会买要知