浪潮信息元脑 R1 推理服务器已完成对开源框架 SGLang 最新版本的深度适配, 成功实现在单机高性能运行 DeepSeek R1 671B 模型时可最大支持超过 1000 路的用户并发访问。
DeepSeek R1 参数量达到 6710 亿, 采用了 MLA 注意力机制和共享专家、路由专家共同组成的混合专家 (MoE) 架构, 其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从 AI 服务器和推理框架入手开展了协同优化工作。
元脑 R1 推理服务器 NF5688G7 原生搭载 FP8 计算引擎, 针对 DeepSeek R1 671B 模型部署速度快且无精度损失,1128GB HBM3e 高速显存满足 671B 模型 FP8 精度下不低于 800GB 显存容量的需求, 单机支持全量模型推理情况下, 仍保留充足的 KV 缓存空间。显存带宽高达 4.8TB/s, 完美契合 DeepSeek R1 模型 "短输入长输出、显存带宽敏感" 的技术特征, 在推理解码阶段可实现极致加速。在通信方面,GPU P2P 带宽达 900GB/s, 保障单机部署张量并行最佳通讯性能。
SGLang 是新兴的开源推理框架项目, 其得到活跃的社区支持, 并在工业界获得了广泛应用。SGlang 的核心特性包括: 快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang 针对 MLA 注意力机制开展了针对性的工程优化, 并在框架上对 MoE 架构的推理做了优化设计。SGLang 也是最早适配 DeepSeek v3 和 R1 的优选推理框架之一。
目前, 元脑 R1 推理服务器 NF5688G7 已完成 SGLang 最新版本 0.4.3 的适配优化工作。通过硬件调优、算子优化、混合并行、多 token 预测等多方面的工程实践, 在元脑 R1 推理服务器 NF5688G7 上运行 DeepSeek 671B R1 模型, 成功实现了单用户解码最高 33 tokens / s 及最大用户并发超 1000 的优异性能表现。
单路并发性能测试日志, 根据 TPOT 换算用户解码性能为 33.3 tokens / s
DeepSeek R1 671B 是一个稀疏度较高的 MoE 架构模型, 具有模型参数量大、计算量小的特点。和 Dense 模型相比, 在满足 KV cache 的显存占用的前提下, 可以支持更高的并发访问需求。实测数据表明, 基于单台 NF5688G7, 在使用 DeepSeek R1 进行带思维链深度思考的短输入长输出的问答场景下, 使用 100/1000 作为输入输出长度, 实测在单个用户并发时的解码性能为 33.3tokens / s; 在 16 个用户并发时, 每个用户有约 20 tokens / s 的解码性能; 在 64 个用户并发时, 每个用户有约 10.4 tokens / s 的解码性能。而在使用 1024 个用户并发访问的极限测试时, 单台 NF5688G7 实现了 3975.76 tokens / s 的吞吐性能, 可以满足超高并发场景下多用户使用需求。
1024 路并发性能测试日志, 测试使用了 1000/1000 的输入输出长度, 实现了 3975.76 tokens / s 的总设备吞吐
浪潮信息团队正与业内团队密切合作, 在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力, 旨在为用户带来高性能、高效稳定、性价比高的 DeepSeek 大模型部署服务方案, 助力大模型快速落地应用。
浪潮信息是全球领先的 IT 基础设施产品、方案和服务提供商, 通过发展新一代以系统为核心的计算架构, 打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于 AI 计算平台、资源平台和算法平台的研发创新, 并通过元脑生态携手领先伙伴, 加速人工智能的创新和应用落地。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。