ChatGPT 激发了人们的好奇心也打开了人们的想象力,伴随着生成式 AI(Generative AI)以史无前例的速度被广泛采用,AI 算力的需求激增。与传统计算发展路径类似,想让 AI 普及且发掘出 AI 的全部潜力,AI 计算必须合理的分配在云端服务器和端侧装置(如 PC,手机,汽车,IoT 装置),而不是让云端承载所有的 AI 负荷。这种云端和端侧 AI 协同作战的架构被称为混合 AI (Hybrid AI),将提供更强大,更有效和更优化的 AI。换句话说,要让 AI 真正触手可及,深入日常生活中的各种场景,离不开端侧 AI 的落地。
端侧 AI 将机器学习带入每一个 IoT 设备,减少对云端算力的依赖,可在无网络连接或者网络拥挤的情况下,提供低延迟 AI 体验、还具备低功耗,高数据隐私性和个性化等显著优势。AIoT 的一个最重要载体是电池驱动的超低功耗小型 IoT 设备,其数量庞大且应用丰富,在新一代 AI 的浪潮中,端侧 AI 是实现人工智能无处不在的关键,而为电池驱动的低功耗 IoT 装置赋能 AI 又是让端侧 AI 变为现实的关键。
2024 年 11 月 5 日,炬芯科技股份有限公司董事长兼 CEO 周正宇博士受邀出席 Aspencore2024 全球 CEO 峰会,结合 AI 时代热潮及端侧 AI 所带来的新一代 AI 趋势,分享炬芯科技在低功耗端侧 AI 音频的创新技术及重磅产品,发表主题演讲:《Actions Intelligence: 端侧 AI 音频芯未来》。
周正宇博士表示:在从端侧 AI 到生成式 AI 的广泛应用中,不同的 AI 应用对算力资源需求差异显著,而许多端侧 AI 应用是专项应用, 并不需要大模型和大算力。尤其是以语音交互,音频处理,预测性维护,健康监测等为代表的 AIoT 领域。
在便携式产品和可穿戴产品等电池驱动的 IoT 设备中,炬芯科技致力于在毫瓦级功耗下实现 TOPS 级别的 AI 算力,以满足 IoT 设备对低功耗、高能效的需求。以穿戴产品(耳机和手表)为例,平均功耗在 10mW-30mW 之间,存储空间在 10MB 以下,这框定了低功耗端侧 AI,尤其是可穿戴设备的资源预算。
周正宇博士指出”Actions Intelligence”是针对电池驱动的端侧 AI 落地提出的战略,将聚焦于模型规模在一千万参数(10M)以下的电池驱动的低功耗音频端侧 AI 应用,致力于为低功耗 AIoT 装置打造在 10mW-100mW 之间的功耗下提供 0.1-1TOPS 的通用 AI 算力。也就是说”Actions Intelligence“将挑战目标 10TOPS / W-100TOPS / W 的 AI 算力能效比。根据 ABI Research 预测,端侧 AI 市场正在快速增长,预计到 2028 年,基于中小型模型的端侧 AI 设备将达到 40 亿台,年复合增长率为 32%。到 2030 年,预计 75% 的这类 AIoT 设备将采用高能效比的专用硬件。
现有的通用 CPU 和 DSP 解决方案虽然有非常好的算法弹性,但是算力和能效远远达不成以上目标,依据 ARM 和 Cadence 的公开资料,同样使用 28/22nm 工艺,ARM A7 CPU 运行频率 1.2GHz 时可获取 0.01TOPS 的理论算力,需要耗电 100mW,即理想情况下的能效比仅为 0.1TOPS / W;HiFi4 DSP 运行 600MHz 时可获取 0.01TOPS 的理论算力,需要耗电 40mW,即理想情况下的能效比 0.25TOPS / W。即便专用神经网路加速器(NPU)的 IP ARM 周易能效比大幅提升,但也仅为 2TOPS / W。
以上传统技术的能效比较差的本质原因均源于传统的冯・诺依曼计算结构。传统的冯・诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。
在冯・诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。
此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的许多倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。
周正宇博士表示:弱化或消除”存储墙”及”功耗墙”问题的方法是采用存内计算 Computing-in-Memory(CIM)结构。其核心思想是将部分或全部的计算移到存储中,让存储单元具有计算能力,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储与计算融合。同时,由于计算完全依赖于存储,因此可以开发更细粒度的并行性,大幅提升性能尤其是能效比。
机器学习的算法基础是大量的矩阵运算,适合分布式并行处理的运算,存内计算非常适用于人工智能应用。
要在存储上做计算,存储介质的选择是成本关键。单芯片为王,炬芯的目标是将低功耗端侧 AI 的计算能力和其他 SoC 的模块集成于一颗芯片中,于是使用特殊工艺的 DDR RAM 和 Flash 无法在考虑范围内。而采用标准 SoC 适用的 CMOS 工艺中的 SRAM 和新兴 NVRAM(如 RRAM 或者 MRAM)进入视野。SRAM 工艺非常成熟,且可以伴随着先进工艺升级同步升级,读写速度快、能效比高,并可以无限多次读写。唯一缺陷是存储密度较低,但对于绝大多数端侧 AI 的算力需求,该缺陷不会成为阻力。短期内,SRAM 是在低功耗端侧 AI 设备上打造高能效比的最佳技术路径,且可以快速落地,没有量产风险。
长期来看,新兴 NVRAM 如 RRAM 由于密度高于 SRAM,读功耗低,也可以集成入 SoC,给存内计算架构提供了想象空间。但是 RRAM 工艺尚不成熟,大规模量产依然有一定风险,制程最先进只能到 22nm,且存在写次数有限的致命伤(超过会永久性损坏)。故周正宇博士预期未来当 RRAM 技术成熟以后,SRAM 跟 RRAM 的混合技术有机会成为最佳技术路径,需要经常写的 AI 计算可以基于 SRAM 的 CIM 实现,不经常或者有限次数写的 AI 计算由 RRAM 的 CIM 实现,基于这种混合技术有望实现更大算力和更高的能效比。
业界公开的基于 SRAM 的 CIM 电路有两种主流的实现方法,一是在 SRAM 尽量近的地方用数字电路实现计算功能,由于计算单元并未真正进入 SRAM 阵列,本质上这只能算是近存技术。另一种思路是在 SRAM 介质里面利用一些模拟器件的特性进行模拟计算,这种技术路径虽然实现了真实的 CIM,但缺点也很明显。一方面模拟计算的精度有损失,一致性和可量产性完全无法保证,同一颗芯片在不同的时间不同的环境下无法确保同样的输出结果。另一方面它又必须基于 ADC 和 DAC 来完成基于模拟计算的 CIM 和其他数字模块之间的信息交互, 整体数据流安排以及界面交互设计限制多, 不容易提升运行效率。
炬芯科技创新性的采用了基于模数混合设计的电路实现 CIM,在 SRAM 介质内用客制化的模拟设计实现数字计算电路,既实现了真正的 CIM,又保证了计算精度和量产一致性。
周正宇博士认为,炬芯科技选择基于模数混合电路的 SRAM 存内计算(Mixed-Mode SRAM based CIM,简称 MMSCIM)的技术路径,具有以下几点显著的优势:
第一,比纯数字实现的能效比更高,并几乎等同于纯模拟实现的能效比;
第二,无需 ADC / DAC, 数字实现的精度,高可靠性和量产一致性,这是数字化天生的优势;
第三,易于工艺升级和不同 FAB 间的设计转换;
第四,容易提升速度,进行性能 / 功耗 / 面积 (PPA) 的优化;
第五,自适应稀疏矩阵,进一步节省功耗,提升能效比。
而对于高质量的音频处理和语音应用,MMSCIM 是最佳的未来低功耗端侧 AI 音频技术架构。由于减少了在内存和存储之间数据传输的需求,它可以大幅降低延迟,显著提升性能,有效减少功耗和热量产生。对于要在追求极致能效比电池供电 IoT 设备上赋能 AI,在每毫瓦下打造尽可能多的 AI 算力,炬芯科技采用的 MMSCIM 技术是真正实现端侧 AI 落地的最佳解决方案。
周正宇博士首次公布了炬芯科技 MMSCIM 路线规划,从路线图中显示:
1、炬芯第一代 (GEN1) MMSCIM 已经在 2024 年落地,GEN1 MMSCIM 采用 22 纳米制程,每一个核可以提供 100 GOPS 的算力,能效比高达 6.4 TOPS / W @INT8;
2、到 2025 年,炬芯科技将推出第二代(GEN2)MMSCIM,GEN2 MMSCIM 采用 22 纳米制程,性能将相较第一代提高三倍,每个核提供 300GOPS 算力,直接支持 Transformer 模型,能效比也提高到 7.8TOPS / W @INT8;
3、到 2026 年,推出新制程 12 纳米的第三代(GEN3)MMSCIM,GEN3 MMSCIM 每个核达到 1 TOPS 的高算力,支持 Transformer,能效比进一步提升至 15.6TOPS / W @INT8。
以上每一代 MMSCIM 技术均可以通过多核叠加的方式来提升总算力,比如 MMSCIM GEN2 单核是 300 GOPS 算力,可以通过四个核组合来达到高于 1TOPS 的算力。
炬芯科技成功落地了第一代 MMSCIM 在 500MHz 时实现了 0.1TOPS 的算力,并且达成了 6.4TOPS / W 的能效比,受益于其对于稀疏矩阵的自适应性,如果有合理稀疏性的模型(即一定比例参数为零时),能效比将进一步得到提升,依稀疏性的程度能效比可达成甚至超过 10TOPS / W。基于此核心技术的创新,炬芯科技打造出了下一代低功耗大算力、高能效比的端侧 AI 音频芯片平台。
周正宇代表炬芯科技正式发布全新一代基于 MMSCIM 端侧 AI 音频芯片,共三个芯片系列:
1、第一个系列是 ATS323X,面向低延迟私有无线音频领域;
2、第二个系列是 ATS286X,面向蓝牙 AI 音频领域;
3、第三个系列是 ATS362X,面向 AI DSP 领域。
三个系列芯片均采用了 CPU(ARM)+ DSP(HiFi5)+ NPU(MMSCIM)三核异构的设计架构,炬芯的研发人员将 MMSCIM 和先进的 HiFi5 DSP 融合设计形成了炬芯科技“Actions Intelligence NPU(AI-NPU)”架构,并通过协同计算,形成一个既高弹性又高能效比的 NPU 架构。在这种 AI-NPU 架构中 MMSCIM 支持基础性通用 AI 算子,提供低功耗大算力。同时,由于 AI 新模型新算子的不断涌现,MMSCIM 没覆盖的新兴特殊算子则由 HiFi5 DSP 来予以补充。
以上全部系列的端侧 AI 芯片,均可支持片上 1 百万参数以内的 AI 模型,且可以通过片外 PSRAM 扩展到支持最大 8 百万参数的 AI 模型,同时炬芯科技为 AI-NPU 打造了专用 AI 开发工具“ANDT”,该工具支持业内标准的 AI 开发流程如 Tensorflow,HDF5,Pytorch 和 Onnx。同时它可自动将给定 AI 算法合理拆分给 CIM 和 HiFi5 DSP 去执行。ANDT 是打造炬芯低功耗端侧音频 AI 生态的重要武器。借助炬芯 ANDT 工具链轻松实现算法的融合,帮助开发者迅速地完成产品落地。
根据周正宇博士公布的第一代 MMSCIM 和 HiFi5 DSP 能效比实测结果的对比显示:
当炬芯科技 GEN1 MMSCIM 与 HiFi5 DSP 均以 500MHz 运行同样 717K 参数的 Convolutional Neural Network(CNN)网路模型进行环境降噪时,MMSCIM 相较于 HiFi5 DSP 可降低近 98% 功耗,能效比提升达 44 倍。而在测试使用 935K 参数的 CNN 网路模型进行语音识别时,MMSCIM 相较于 HiFi5 DSP 可降低 93% 功耗,能效比提升 14 倍。
另外,在测试使用更复杂的网路模型进行环境降噪时,运行 Deep Recurrent Neural Network 模型时,相较于 HiFi5 DSP 可降低 89% 功耗;运行 Convolutional Recurrent Neural Network 模型时,相较于 HiFi5 DSP 可降低 88% 功耗;运算 Convolutional Deep Recurrent Neural Network 模型时,相较于 HiFi5 DSP 可降低 76% 功耗。
最后,相同条件下在运算某 CNN-Con2D 算子模型时,GEN1 MMSCIM 的实测 AI 算力可比 HiFi5 DSP 的实测算力高 16.1 倍。
综上所述,炬芯科技此次推出的最新一代基于 MMSCIM 端侧 AI 音频芯片,对于产业的影响深远,有望成为引领端侧 AI 技术的新潮流。
从 ChatGPT 到 Sora,文生文、文生图、文生视频、图生文、视频生文,各种不同的云端大模型不断刷新人们对 AI 的预期。然而,AI 发展之路依然漫长,从云到端将会是一个新的发展趋势,AI 的世界即将开启下半场。
以低延迟、个性服务和数据隐私保护等优势,端侧 AI 在 IoT 设备中扮演着越来越重要的角色,在制造、汽车、消费品等多个行业中展现更多可能性。基于 SRAM 的模数混合 CIM 技术路径,炬芯科技新产品的发布踏出了打造低功耗端侧 AI 算力的第一步,成功实现了在产品中整合 AI 加速引擎,推出 CPU+ DSP + NPU 三核 AI 异构的端侧 AI 音频芯片。
最后,周正宇博士衷心希望可以通过”Actions Intelligence”战略让 AI 真正的随处可及。未来,炬芯科技将继续加大端侧设备的边缘算力研发投入,通过技术创新和产品迭代,实现算力和能效比进一步跃迁,提供高能效比、高集成度、高性能和高安全性的端侧 AIoT 芯片产品,推动 AI 技术在端侧设备上的融合应用,助力端侧 AI 生态健康、快速发展。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。