异构计算 + 高性能低功耗 NPU，高通正在推动终端侧生成式 AI 发展

2024/9/6 18:02:42 来源：之家网站作者：- 责编：-

评论：

9 月 6 日，2024 全球 AI 芯片峰会在北京召开。全球 AI 芯片峰会至今已成功举办六届，现已成为国内规模最大、规格最高、影响力最强的产业峰会之一。本届峰会以“智算纪元共筑芯路”为主题，共 50 多位来自 AI 芯片、Chiplet、RISC-V、智算集群与 AI Infra 系统软件等领域的嘉宾参与进行了报告、演讲、高端对话和圆桌 Panel，对 AI 芯片筑基智算新纪元进行了全方位解构。

高通 AI 产品技术中国区负责人万卫星受邀参加大会开幕式，并发表了以“终端侧 AI 创新开启智能计算全新体验”为主题的演讲。他在演讲中提出，高通公司持续深耕 AI 领域，面对当前生成式 AI 的飞速发展，高通的领先 SoC 解决方案提供了异构计算系统和具备高性能低功耗的强大 NPU，能够满足当前丰富生成式 AI 用例的不同需求和算力要求，并对实现最佳性能和能效至关重要。利用高通公司推出的领先第三代骁龙 8 移动平台和骁龙 X Elite 计算平台，终端侧生成式 AI 现已应用于旗舰终端和用例，终端侧生成式 AI 的时代已经到来。

演讲全文如下：

大家上午好！非常感谢主办方的邀请，让我能够代表高通公司再次参加本次活动，跟大家分享 AI 芯片在生成式 AI 这个当前最火热的赛道上，高通公司做的一些工作。今天我给大家带来的演讲主题是“终端侧 AI 创新开启智能计算全新体验”。

作为一家芯片公司，高通为 AI 应用的加速专门打造了高算力、低功耗的 NPU。首先，我会给大家简单介绍一下这款高算力、低功耗 NPU 的演进路径。可以说，这是一个非常典型的由上层 AI 用例驱动底层硬件设计的演进过程。可以回想一下，在 2015 年左右，大家所了解的 AI 用例主要是比较简单的语音识别、语音唤醒、图片分类、图片识别等。这些用例背后的底层模型，都是一些比较浅层的、规模比较小的 CNN 网络。那个时候，我们就给这颗 NPU 搭配了标量和矢量的硬件加速单元，满足对于性能的需求。

在 2016 年之后，计算摄影的概念在市场上得到普及，我们也将研究方向从传统的语音识别、图像分类扩展到了对图片和视频的处理。随着基于像素级别的处理对算力的要求越来越高，支撑这些应用的模型除了更大规模、更多层数的 CNN 网络之外，还有其他新型的网络，比如 LSTM、RNN，甚至大家现在非常熟悉的 Transformer。这些网络对算力和功耗的要求非常敏感，所以我们在标量和矢量加速单元的基础之上，进一步配备了一颗张量加速器，以提供更加充沛的算力，满足应用对像素级、对 Transformer 时序网络、对算力的要求。

2023 年开始，大模型，尤其是大语言模型开始真正火爆起来。其实 70% 以上的大语音模型都是基于 Transformer。因此，我们给这颗 NPU 专门配备了 Transformer 支持。同时，我们在保持标量、矢量、张量等硬件加速的基础之上，增加更多的硬件加速单元，包括集成独特的微切片推理技术，进一步针对对算力要求和 Transformer 并行化要求较高的模型推理进行加速。

未来我们会持续地加大对 NPU 的投入。生成式 AI 的未来一定是多模态的趋势，所以今年我们也在致力于实现将一些真正的多模态大模型完整地运行在端侧。在今年 2 月份的 MWC 巴塞罗那 2024 上，高通公司基于第三代骁龙 8 移动平台展示了一个 demo，就是让超过 70 亿参数的多模态语言模型（LMM）完整地跑在端侧。

从模型规模来讲，高通未来会支持更大规模的大语言模型，今年我们将有希望看到超过 100 亿参数以上的大语言模型完整运行在端侧。当然，终端侧需要跑多大的模型，取决于实际的用例和这些用例对 KPI 的要求。

我们为什么致力于在终端侧去推理这些生成式 AI 模型呢？在终端侧进行 AI 处理不仅具有成本、个性化、时延等优势，我们认为还有最重要的一点，就是隐私性。包括手机、PC 等个人设备上的个人信息、聊天记录、相册信息、甚至包括用户的生物特征信息等等，从用户角度来讲，不希望这些数据上传到云端做处理。通过运行大语言模型、大视觉模型等，在终端侧完成这些数据的处理，我们认为这可以很好地保护普通用户的隐私。从另外一个角度来讲，终端侧是离数据产生最近的地方。因为产生这些数据的设备，包括麦克风、摄像头，各种各样的传感器数据。在离数据产生最近的地方去完成数据的处理，这也是非常自然而然保护用户隐私的处理方法。

大家对高通 Hexagon NPU 的了解，我相信大部分是从搭载骁龙平台的手机开始的，但是高通除了有骁龙移动平台之外，还有非常丰富的产品线，覆盖汽车、物联网、PC、可穿戴设备等。高通 Hexagon NPU 已经赋能了我们的绝大多数产品，也就意味着我们的合作伙伴、开发者朋友们可以在这些不同的产品形态上，用 NPU 来做算法的加速、享受充沛的算力。除了硬件之外，我们还有统一的高通 AI 软件栈（Qualcomm AI Stack），可以让 OEM、开发者在高通所支持的不同产品形态上去完成模型的部署和优化。

接下来更深入地介绍一下高通 Hexagon NPU 的硬件架构。以第三代骁龙 8 为例，高通 Hexagon NPU 中最重要的是张量、矢量和标量三大加速单元，它们能够对不同的数据类型做处理，例如张量加速器可以用来处理卷积运算、张量数据。此外还包括片上内存，让这三个加速器能够协作更高效。神经网络推理是有很多层的，每层之间都会有一些中间数据。而这些中间数据如果没有片上内存做缓存的话，可能都要跑在 DDR 上，这样对性能、功耗都会有非常大的影响。所以我们通过在 NPU 上配备比较大的片上内存，能够更好地释放 AI 算力。

此外，高通 NPU 的整个硬件设计会随着业界先进工艺的发展不断迭代。这颗处理器的微架构，包括前端设计和后端设计也会每年进行迭代，实现最佳性能和能效。不管是 AI 手机还是 AI PC，对功耗都有很高的要求，我们要保证设备在日常使用中不会发烫、有更长续航。因此我们给 NPU 专门打造了加速器专用电源，以实现最佳能效比。我们还会通过升级微切片技术，支持网络深度融合，获取最佳性能。除了前面这些技术升级之外，我们还会提供更高主频，支持更大的 DDR 带宽。对于生成式 AI 模型，尤其是在解码阶段，需要 DDR 的支持，所以更大的 DDR 带宽就意味着大模型的解码速度更快，能给消费者带来更好的用户体验。

除了专门的高算力、低功耗 NPU 之外，我们还有一个单独的模块叫高通传感器中枢，它也可以用来做 AI 推理加速。它是 DSP 加多核 Micro NPU 的设计，最大的特点是功耗特别低，适用于一些需要始终在线的任务，包括始终开启的摄像头、手势识别、人脸检测、始终开启的语音唤醒等等。因为这些用例需要始终在线，所以对功耗尤其敏感。我们在硬件设计上，也会通过专门的传感器中枢加速模块来适配，对功耗极其敏感的用例进行加速。

前面介绍了非常多的硬件内容，下面会从用例方面来介绍一下我们是如何完成这些工作的。目前有非常多的 AI 用例，包括自然语言理解、自然语言处理相关的用例，还有计算摄影中降噪、超分、HDR、背景模糊等图像处理相关的用例，现在还有视频生成、视频处理等。此外，现在 AI 在游戏里也有很多应用，像 AI NPC、自动剧情、地图绘制、二创等等。这些用例对各种 KPI 的要求和算力要求也不一样，有按需型用例、持续型用例和泛在型用例，很难有单一的处理器可以满足所有 KPI 的要求。

举个简单例子，有些任务是在 CPU 运行中突发的任务，这时理论上不应该唤醒全新的 IP，否则时延会非常大，这个时候可以考虑用 CPU 架构去做加速。还有一些用例对算力要求比较高，可能需要长时间的处理，包括游戏领域、视频 / 图片处理领域以及大模型等用例。还有一种用例可能需要始终在线，这种时候用 CPU、GPU 或者 NPU 去加速都不合适，因为它对功耗极其敏感。

高通通过推出异构计算系统，来满足这些广泛 AI 用例对不同算力和 KPI 的要求。我们提供的异构计算系统，包括通用的硬件加速单元 ——CPU 和 GPU，用来处理实时的、突发的、对时延非常敏感的任务；我们还有 NPU，它特别适用于需要持续性处理、对算力要求比较高、对功耗要求也比较高的一些任务，包括大模型、视频 / 图片处理以及游戏中持续运行的用例等；此外，还有传感器中枢用来处理始终开启的手势识别、语音唤醒等用例。

设计这样的异构计算系统，我们考虑了哪些因素，是怎么完成这个目标的呢？第一，我们希望提供极致的性能；第二，我们也希望实现比较好的持续性能表现，包括能效比；第三，我们也会从整体成本上考虑，以及考虑芯片尺寸的大小。最后我们也会考虑单位面积能够提供的算力。我们充分考虑这些因素，打造出这样一颗 NPU 和具有异构计算系统的 SoC，为消费者带来了极致的 AI，尤其是生成式 AI 的用户体验。

前面介绍了我们的 AI 硬件技术，包括各种各样的 IP 处理器、异构计算系统。接下来，我会跟大家介绍高通所赋能的 AI 体验。

自去年年底第三代骁龙 8 和骁龙 X Elite 平台发布后，大家能够看到市面上已经推出了非常多搭载这两款平台的产品。很多产品其实已经具有了端侧大模型的能力，我在这里举几个例子：第一个是今年年初发布的三星 Galaxy S24 Ultra，它能够支持实时翻译的功能；第二个是 OPPO Find X7 Ultra 推出了 AI 消除功能，如果想要将图片里面的背景或路人移除的话，可以非常方便地用这个功能得到你想要的照片；第三是荣耀 Magic6 系列的智慧成片功能，可以非常方便地在图库里面找到与 Prompt 相关的图片或视频，生成一段 vlog 分享给你的家人跟朋友。

今年在 MWC 巴塞罗那 2024 期间，高通展示了在 Android 智能手机上运行的大语言和视觉助理大模型（LLaVA），这是一个超过 70 亿参数的大型多模态语言模型（LMM）。我们正在携手合作伙伴，将多模态大模型完整地带到端侧，带到消费者面前。

第三代骁龙 8 和骁龙 X Elite 平台已经赋能推出了丰富的具备终端侧 AI 或生成式 AI 能力的旗舰终端和用例。这些用例既有娱乐类的，包括图片生成、图片编辑等，也有生产工具类的，包括写作助手、文本总结、实时翻译等，能够给日常生活或工作带来更高的效率。

总结一下今天的分享内容，第一高通的 SoC 解决方案提供了异构计算系统，包括多个 IP 处理器组件，其中有通用的 CPU、GPU、专用的 NPU、超低功耗的传感器中枢，这些 IP 处理器组件各自会承担不同的任务，包括对时延敏感的、对算力敏感的、或对功耗敏感的任务。同时，它们也可以互相组合、共同完成一些更复杂的处理任务，提供端到端的服务。在 2023 年骁龙峰会期间，我们展示了怎么利用高通的异构计算系统去完成端到端的虚拟化身 AI 助手，当时我们把整个处理管线拆解成三部分：前处理、中间的文本生成、虚拟化身渲染的后处理。其中前处理是跑在 CPU 上，中间的大语言模型跑在 NPU 上，后处理跑在 GPU 以及传感器中枢上面。第二，我们提供强大、算力充沛、超低功耗的专用 NPU，方便大家在 NPU 上部署更大、更先进、更丰富的模型。第三，我们认为，终端侧生成式 AI 时代已经到来，骁龙计算平台和骁龙移动平台已经赋能了非常多具备终端侧生成式 AI 功能的终端产品。

最后，我也想在这里做一个小小的预告，搭载最新高通 Oryon CPU 的下一代骁龙移动平台，即将在今年 10 月 21-23 日举行的骁龙峰会上发布，大家敬请期待，谢谢！

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

异构计算 + 高性能低功耗 NPU，高通正在推动终端侧生成式 AI 发展

相关文章