为解决 10 万卡训练难题而生，搭载自研算力网卡，腾讯星脉网络全面升级

2024/7/3 11:58:56 来源：之家网站作者：- 责编：-

评论：

（腾讯云副总裁王亚晨）

随着大模型的火热持续迭代，AI 基础设施愈发成为云厂商的核心竞争力之一。

7 月 1 日，腾讯宣布其自研星脉高性能计算网络全面升级，升级后的星脉网络 2.0 搭载全自研的网络设备与 AI 算力网卡，支持超 10 万卡大规模组网，网络通信效率比上一代提升 60%，让大模型训练效率提升 20%。这意味着，如果原来训练中某个计算结果的同步需要花 100 秒完成，现在只需要 40 秒；原来需要花 50 天训练的模型，只需要花 40 天。

AI 大模型就像是一场 F1 比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了 TiTa 和 TCCL 网络协议作为“赛事指挥中心与专业车队”，共同让“腾讯云高性能计算集群 HCC 的 GPU 服务器”这台马力强大的 F1 赛车发挥最大的算力性能，助力客户在 AI 大模型的竞争中遥遥领先。

为解决 10 万卡训练难题而生，搭载自研算力网卡，腾讯星脉网络全面升级

AIGC 的火热推动着 AI 大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。

为支撑 AIGC 中海量数据的大规模训练，大量服务器通过高速网络组成大规模算力集群，互联互通，共同完成训练任务。

然而，集群规模越大，所产生的通信损耗会越高；同时，AI 训练的通信模式，与传统的通信模式差异较大，不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达 50%。同时，分布式计算模式也意味着，单点的故障将导致整个集群不可用，因此在故障的时候需要快速定位与恢复训练，把损失降到最低。

如何在大规模组网前提下，提升通信效率、降低通信占比，让训练稳定高可用，进而提升 GPU 的利用率和模型训练效率，是 AI 网络要解决的核心问题。

数据显示，星脉网络 2.0 可实现大模型训练过程中，网络通信占比（通信时间占总体时间比例）低至 6%，远低于 10% 的业界水平；通信负载率达到 90%，与 IB 网络（Infiniband）持平，相较于标准以太网提升 60%。整体能力处于业界顶尖水平。

四大组件全面升级，助力 AI 训练提速

腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯核心技术。

为解决 10 万卡训练难题而生，搭载自研算力网卡，腾讯星脉网络全面升级

（腾讯云副总裁王亚晨）

硬件方面，腾讯星脉网络是业界首个采用全自研网络设备的高性能网络，包括交换机、自研光模块、网卡等。自研交换机从 25.6T 容量升级到 51.2T，同时在业界率先引入 400G 硅光模块，速率翻倍，让网络延迟降低 40%，支持超 10 万卡大规模组网。

值得注意的是，星脉网络 2.0 支持搭载腾讯自研的全新算力网卡，这是公共云业内首款为 AI 训练设计的网卡，网卡采用最新一代 FPGA 芯片，整卡带宽可达 400Gbps，具备业界最高的 3.2T 整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议 TiTa，并搭载了腾讯独有的主动拥塞控制算法。

相比起上一代，TiTa 协议 2.0 从部署在交换机转移到了端侧的网卡上，从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法，可主动调整数据包发送速率，从而避免网络拥堵；并通过拥堵智能调度，实现网络拥塞快速自愈。这让混合专家 (MoE) 模型训练下网络通信性能相比 1.0 提升 30%，带来训练效率 10% 的提升。

专为星脉网络设计的高性能集合通信库 TCCL，也进行了升级。通过创新的 NVLINK+NET 异构并行通信、Auto-Tune Network Expert 自适应算法等通信库的升级，在 MoE 模型训练下，给星脉网络带来了 30% 的通信效率提升，让模型训练效率提升 10%。

TCCL 对外的接口跟原生通信库接口完全一致的，主流 AI 大模型客户不需要额外适配，只需要替换通信库就可以发挥星脉的能力。

通信协议 TiTa 与通信库 TCCL 的升级带来的效果叠加，让星脉网络的通信效率提升 60%，MoE 大模型训练效率提升 20%。

网络的故障或任何单点的故障，将导致整个集群不可用，让模型训练暂停。因此，网络的高可用、稳定性也极为重要。为确保星脉网络的高可用，腾讯云自研了端到端的全栈网络运营系统，这也是星脉网络第四大关键组件。

运营系统 2.0 新增腾讯独家技术灵境仿真平台，从原来仅能定位网络问题，到可定位 GPU 节点问题，实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了 360 度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间再次大幅缩短，故障时尽快恢复续训。

打造最适合大模型的云

目前，腾讯云已经面向 AIGC 场景推出了基于星脉网络的大模型训练集群 HCC、AIGC 存储解决方案、向量数据库以及行业大模型服务 MaaS、天御 AIGC 内容安全解决方案等大模型全链路云服务。超过 80% 的头部大模型企业使用了腾讯云服务。

大模型训练集群在 HCC 将高性能云服务器作为节点，满配最新代次的 GPU，节点之间通过自研星脉网络互联，提供高性能、高带宽和低延迟的一体化高性能计算产品。

腾讯云 AIGC 云存储解决方案是国内首个实现存储引擎全面自研的云存储解决方案，可将大模型的数据清洗和训练效率均提升一倍，需要的时间缩短一半。

腾讯云向量数据库 Tencent Cloud VectorDB 每日支撑超过 3700 亿次向量检索请求，可支持千亿级向量规模存储，百万级 QPS 及毫秒级查询延迟，适用于大模型的训练推理、RAG 场景、AI 应用以及搜索推荐服务，实现企业数据接入 AI 的效率比传统方案提升 10 倍。

腾讯云打造了天御 AIGC 全链路的内容安全解决方案，提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系，护航企业从模型训练到事后运营全过程的内容安全建设。

同时，在自身 AI 基础设施支撑下，腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

借助基于星脉网络的大模型训练集群 HCC、Angel 机器学习平台等自研底层技术，腾讯搭建起万卡 AI 训练集群，可以用更少的资源训练更大的模型，训练速度是主流框架的 2.6 倍；推理成本相比业界主流框架下降 70%，并且支持国产主流硬件的适配。

腾讯混元已扩展至万亿级参数规模，采用混合专家模型 (MoE) 结构，在通用基础能力和专业应用能力方面处于国内主流大模型领先地位。无论是企业客户还是个人开发者，都可以通过腾讯云上 API 直接调用腾讯混元，实现更便捷的智能化升级。腾讯还联合生态伙伴，将大模型技术与 20 多个行业结合，提供超 50 个行业大模型解决方案。

大模型时代的来临，将开创下一代云服务，腾讯云致力于打造“最适合大模型的云”，也将持续升级底层 AI 基础设施，助力企业把握 AI 时代。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

为解决 10 万卡训练难题而生，搭载自研算力网卡，腾讯星脉网络全面升级

相关文章