MWC 上海：高通分享如何赋能生成式 AI 在终端侧规模化扩展

2024/6/28 8:29:58 来源：之家网站作者：- 责编：-

评论：

6 月 27 日，高通公司 AI 产品技术中国区负责人万卫星出席 2024 世界移动通信大会（MWC 上海），并在“人工智能领域的投资、创新与生态系统发展”主题会议发表了主题为“终端侧生成式 AI 的未来”的演讲。

他指出，生成式 AI 的能力和用例正不断丰富和扩展，高通通过其创新的 SoC 系统设计，凭借面向生成式 AI 全新设计的 NPU 和异构计算系统，为终端侧 AI 规模化扩展提供了有力支持。他还详细介绍了 NPU 的演进路线，以及如何利用第三代骁龙 8 移动平台率先实现多模态大模型的端侧运行。此外，高通的 AI 软件栈支持跨终端、跨 OS、跨平台的灵活部署，并通过构建 AI 生态系统，支持国内外广泛的终端侧生成式 AI 模型，持续推动 AI 技术的发展和创新。

以下为演讲全文：

尊敬的各位嘉宾，大家好！我是高通公司万卫星，很高兴来到 MWC 上海，并借今天的活动，与各位嘉宾共同讨论生成式 AI 在终端侧的发展。同时，我也会和大家分享高通公司的产品和解决方案是如何助力推动生成式 AI 在终端侧的规模化扩展的。

我们注意到，随着相关应用的普及，生成式 AI 的能力正在持续增强，主要体现在两个方面。第一，它的能力和 KPI 日益提升。比如大语言模型可以支持更长的上下文，大视觉模型可以处理更高分辨率的图片和视频，可以通过 LoRa 等先进技术，针对不同消费者、企业或行业，定制微调模型。第二，模式和用例更加丰富。现在有越来越多的用例支持语音 UI，越来越多的大型多模态模型，可以更好地理解世界，有越来越丰富、逼真的视频和 3D 内容生成等。

之前大家聊生成式 AI 更多是云端，但现在无论手机等 OEM 厂商，还是芯片厂商，都能够看到生成式 AI 正在从云端迁移到边缘云和终端侧，未来端云协同的混合 AI 将推动生成式 AI 的规模化扩展，在云和边缘及终端侧之间分配工作负载，提供更强大、更高效和高度优化的体验。

具体来讲，在中央云会有一个大规模通用模型，提供绝对性能算力；在终端侧会有一个参数量相对较小、但能胜任具体任务的模型，提供具备即时性、可靠性、个性化，以及更能保障隐私和安全性的服务。针对新的 AI 用例和工作负载，我们重新定义和设计了 SoC，定义了一个专为 AI 而打造的 SoC 的系统，推出了高通 AI 引擎这个异构计算系统。

高通 AI 引擎中包含 CPU、GPU、NPU，以及超低功耗的高通传感器中枢。

下面我来解释一下，我们 SoC 的异构计算系统如何满足这些丰富的生成式 AI 用例的多样化要求，包括对算力等各种 KPI 的要求。我们知道，很难有单独一个处理器能满足这样多样化的要求。

我们将生成式 AI 用例分为按需型、持续型和泛在型，比如对时序要求比较高、对时延很敏感的按需型用例，我们会用 CPU 来进行加速；对于对管道处理、图像处理、并行计算要求比较高的用例，我们通过性能强大的 Adreno GPU 来进行加速；对于一些对算力要求较高、对功耗要求较高的用例，包括图像处理、视频处理、大模型等，我们会通过 NPU 进行加速。

接下来，我会深入介绍一下高算力、低功耗 NPU 的演进路线，这是一个通过上层用例驱动底层硬件设计的非常典型的案例。

在 2015 年之前，AI 用例主要集中在音频和语音处理方面，模型尺寸相对较小，所以我们给 NPU 配置了一个标量和一个矢量硬件加速单元。2016 年到 2022 年，AI 用例从语音处理转向了图像处理、视频处理，背后的模型变得越来越丰富，有 RNN、CNN、LSTM、Transformer 等等，对张量计算的要求非常高，所以我们给 NPU 又配置了一个张量加速器。到了 2023 年，随着生成式 AI 大热，对于大语言模型来讲，目前 70% 以上的大语言模型都是基于 Transformer，所以我们专门针对 Transformer 进行了特定的优化和设计，同时我们在软硬件层面也提供了诸多先进技术，包括微切片推理。去年我们发布的第三代骁龙 8 移动平台，可以支持完整运行 100 亿参数以上的模型。

在今年 2 月份的 MWC 巴塞罗那上，我们也展示了高通在端测支持的多模态模型。另外，我们也会针对大语言模型的底座 Transformer 进行持续投入，从而更好地支持基于 Transformer 的大模型。从参数量级的角度来说，2024 年以后我们将有望看到 100 亿参数以上的大模型在端侧运行，并带来较好的用户体验。

图示, 工程绘图描述已自动生成

通过这张胶片，我将和大家具体讲解高通去年发布的第三代骁龙 8 移动平台在 AI 方面，特别是 NPU 与前代产品相比有哪些提升。第一，利用微架构升级提供极致性能；第二，手机作为一个集成度非常高的产品，其功耗一直都是需要重点解决的问题，因此我们给 NPU 设置了加速器专用电源，以提供更加出色的能效；同时，我们还升级了微切片技术，在算子深度融合层面充分释放硬件算力和片上内存。除此之外，其他的提升和改进还包括更大的带宽、更高的主频等，从而打造出拥有卓越 AI 性能和能效的 SoC。接下来，我将给各位展示一个基于语音控制的虚拟化身 AI 助手，在这个典型案例中，异构计算的优势能够得到充分释放。

首先，ASR 模块负责将用户的语音信号转成文本信息，这个模型是运行在高通传感器中枢上；输出的文本信息会输入到大语言模型中，这个大语言模型则运行在 Hexagon NPU 上；大语言模型输出的文本信息，再通过开源 TTS 模块处理成语音信息进行输出；因为它是一个虚拟化身形象，最后还需要渲染虚拟形象与用户互动，而渲染、互动的工作负载则是由 Adreno GPU 来完成。这就是虚拟化身 AI 助手在 SoC 上运行完成端到端处理的流程，异构计算的能力在这一过程中得到充分释放。

当然，高通除了提供领先的 AI 硬件之外，还能够提供一个灵活的跨终端、跨 OS、跨平台的高通 AI 软件栈。从上往下看，我们支持包括 TensorFlow 和 PyTorch 在内的目前主流的 AI 训练框架。再往下看，我们也可以直接运行一些开源的 AI runtime，同时，我们还提供一个高通自己的 SDK—— 高通神经网络处理 SDK，这也是我们可以提供给合作伙伴的一个 runtime。

在更下层的接口，我们也会为开发者和合作伙伴提供丰富的加速库、编译器以及各种调试工具，让他们可以在高通骁龙平台上，更加高效、灵活地进行模型的优化和部署。

大家知道，高通有着非常丰富的产品线，我们不仅提供手机 SoC，同时也涉足汽车、PC、物联网、XR 等等领域，高通 AI 软件栈已经赋能我们所有产品线的绝大多数 AI 平台，也就意味着，我们的合作伙伴和开发者朋友们，只要在高通的一个平台上完成模型的部署，就可以非常方便地迁移到高通的其他产品线。

这里我提供了一些目前比较典型的用例和对应的参数量，可以看到，像文生图、对话和 NLP、图像理解这些用例的模型参数量大概在 10 亿至 100 亿之间，正如前面我们介绍到的，高通已经实现了运行超过 100 亿参数的模型，并且，预计未来几年这一数字将大幅增长。

除了提供领先的硬件和灵活的软件之外，我们也在构建我们的 AI 生态系统，支持国内外的、广泛的终端侧生成式 AI 模型在骁龙平台上运行，其中既包括 LVM、LLM，也包括多模态 LLM，这里我就不一一列举了。如果大家感兴趣，可以访问我们的官网查看更多信息。以上就是我今天的全部分享，谢谢大家！

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

MWC 上海：高通分享如何赋能生成式 AI 在终端侧规模化扩展

相关文章