创业界新高！联想 AMD AI 服务器单机部署满血版 DeepSeek 大模型，极限总吞吐高达 6708 token / s！

2025/3/17 9:58:24 来源：之家网站作者：- 责编：-

评论：

今天，联想宣布旗下首款 AMD AI 大模型训练服务器联想问天 WA7785a G3 在单机部署 671B（满血版） DeepSeek 大模型时，可实现极限吞吐量 6708token / s，将单台服务器运行大模型的性能推向了新高，充分展现了联想在 AI 基础设施领域技术的深厚积淀与研发的快速响应能力。在 AI 算力竞争日趋白热化的今天，联想再次以硬核技术实力树立了行业新标杆。

软硬协同打造业界性能新标杆

依托联想万全异构智算平台，联想通过访存优化、显存优化、PCIe 5.0 全互联架构创新以及精选 SGLang 框架中性能最优算子等诸多创新方式，对大模型从预训练、后训练到推理的全流程进行持续优化，在单台部署 DeepSeek 671B 大模型的联想问天 WA7785a G3 上实测最高吞吐量达 6708 token / s。

在模拟问题对话场景（上下文序列长度 128/1K）时，最高可支持并发数 158，TPOT 93 毫秒,TTFT 2.01 秒；而在模拟代码生成（上下文序列长度 512/4K ）时，并发数可达 140，TPOT 100 毫秒,TTFT 5.53 秒。

这一成绩意味着单台联想问天 WA7785a G3 可以支撑 1500 人规模企业的正常使用，是继联想问天 WA7780 G3 服务器单机部署满血版 DeepSeek 大模型总吞吐量突破 2500 token / s 之后，单机部署该大模型推理性能的又一次突破。

此次突破是联想中国基础设施业务群、联想研究院 ICI 实验室和 AMD 联合设计、协同调优、共同实现的。此结果也并非最终结果，联想与 AMD 还在持续尝试深度调优新方法。实现更高调优突破。

硬核配置构筑强大 DeepSeek 算力底座

联想问天 WA7785a G3 服务器是联想与 AMD 双方深度合作的智慧结晶，正是双方通力合作带来的技术创新、软硬协同能力与架构突破为 DeepSeek-R1 满血版大模型插上性能腾飞的翅膀。

强大算力引擎：联想问天 WA7785a G3 搭载了 2 颗 AMD 处理器和 8 颗 AMD 新一代 Instinct OAM GPU，它们为大模型训练、推理等场景提供了强大的算力引擎。

超大显存优势：WA7785a G3 拥有超大的显存容量，单颗 GPU 的 HBM3e 显存容量高达 192GB，总计达 1.5TB。超大显存使得单机支持全量模型推理情况下，仍保留充足的 KV 缓存空间。而其显存带宽达到了惊人的 5.3TB/s，GPU 聚合带宽达 896GB/s，节点间网络带宽 3.2TB/s，更高的带宽可为推理解码实现极致加速，充分满足了大模型并行计算时对跨节点通信的高带宽需求，使其成为用户首选大模型推理服务器。

特有创新架构：联想问天 WA7785a G3 的独特架构设计也为最大程度地释放算力潜能、突破带宽限制发挥了关键作用，其三重独立风道设计分别针对 CPU 节点、GPU 节点和交换机节点进行精准散热控制，提高了散热效率，为服务器的稳定性和可靠性提供了有力保障。

未来，联想将持续深化与产业伙伴的技术协作，通过架构创新、算法优化与硬件技术创新，不断突破性能边界，为各行业提供更高密度、更低能耗、更易部署的 AI 算力基础设施，推动 AI 算力向更高效、更普惠、更可持续的方向演进，助力中国智算产业的持续发展。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

创业界新高！联想 AMD AI 服务器单机部署满血版 DeepSeek 大模型，极限总吞吐高达 6708 token / s！

相关文章