设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

2024 全球 AI 芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

2024/9/11 14:23:19 来源:之家网站 作者:- 责编:-

芯东西(公众号:aichip001)
作者 |  GACS 2024

芯东西 9 月 7 日报道,9 月 6 日~7 日,2024 全球 AI 芯片峰会(GACS 2024)在北京举行。本届峰会以「智算纪元共筑芯路」为主题,全面展示 AI 芯片产业在算力、网络、存储、软件、系统及应用方面的前沿技术、最新成果与落地进程。

50 + 位产学研嘉宾全程密集输出干货,本届峰会有超过 1500 位观众到场参会,线上观看人次累计超过 210 万。

大会由智一科技旗下芯东西联合智猩猩发起主办,以「智算纪元共筑芯路」为主题,邀请 50 + 位嘉宾来自 AI 芯片、Chiplet、RISC-V、智算集群、AI Infra 等领域的嘉宾与会,分享 AI 产业最新技术创新、落地现状、商业化挑战与机遇。

继首日开幕式、数据中心 AI 芯片专场、Chiplet 技术论坛火热开场(直击国产 AI 芯片生存现状:GPU 造血,TPU 突袭,Chiplet 成大势,网络卡脖子)后,峰会第二天演讲继续输出密集干货,并正式公布「2024 年度中国智算集群解决方案企业 TOP 20」、「2024 年度中国 AI 芯片新锐企业 TOP 10」AiiP AI 生产力创新先锋企业榜单。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 智一科技联合创始人、智车芯产媒矩阵总编辑张国仁正式公布 AiiP 榜单

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

一、AI 之外,近存计算斗不过存算分离

上午主会场举行的 AI 芯片架构创新专场期间,北京超弦存储器研究院首席科学家戴瑾进行了一场信息满载的存内计算主题演讲。在回顾芯片级、机架级存算分离与近存计算的斗争后,他抛出结论:AI 之外,近存计算斗不过存算分离。

天量的 AI 模型参数带来无尽的带宽要求,存算分离架构的带宽、功耗、时延会严重制约系统性能,严重降低硬件的费效比。涉及 HBM、3D 封装等的近存计算,以及存内计算,成为必需品。

目前做存内计算的路线中,彻底借鉴人类的类脑计算进展缓慢,但戴瑾认为“笨的 AI 容易成功”。神经网络计算中还有数字引擎和模拟引擎两种路线。数字引擎把 GPU、NPU 或部分与内存集成在同一个芯片上,要求存储介质可以和逻辑工艺集成;模拟引擎用存储单元和存储阵列做计算,等效内存容量扩大 16 倍,但可用算法有限。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 北京超弦存储器研究院首席科学家戴瑾

存内计算按介质划分为 SRAM、NOR、DRAM 成熟存储介质和 MRAM、RRAM、PCRAM、FeRAM 等新兴存储介质。

戴瑾称这些存储介质都不理想,各有优劣。如 SRAM 兼容逻辑工艺、速度快,但容量低、容易漏电;NOR Flash 工艺成熟、节能,但无法使用先进工艺节点,且受擦写速度和擦除次数所限,只能用于推理;DRAM 理论上可用于训练和推理,最大困难不在于技术,而在于产业。

新兴存储介质中,FeRAM 存储介质是铁电材料。戴瑾认为,这是新兴存储中唯一容量可能超过 DRAM 且速度、功耗性能相对好的介质,应该可以在存算一体中取代 DRAM,作为一种非易失存储或存内计算介质都很有吸引力。

比新兴存储更新的是 2T0C DRAM。在戴瑾看来,这是看得见的存储技术中最理想的存内计算介质。2T0C DRAM 分读写两个 MOS,利用读晶体管的寄生电容做存储。其最大的好处是做多 bit 更为简单、直接,速度不逊于 DRAM,能做到无限次擦写、功耗很低,但唯一的不确定性是 IGZO 材料在半导体行业尚未彻底应用。

二、突破有效算力天花板,可重构、存算一体、类脑智能是未来

随着 AI PC 等边缘端推理需求增长,珠海芯动力创始人兼 CEO 李原相信,未来可重构芯片将成为主流。他认为性价比已成为边缘计算的核心要求,但性能和 TOPS 并非直接挂钩,模型在 Prefill 和 Decode 阶段的计算类型不同,也对性能有不同的要求。针对这一特点,珠海芯动力推出了可重构并行处理器架构(RPP)。

RPP 基于数据流架构,兼容 CUDA 指令集,融合了 GPU 和 NPU 的优势。RPP 第一代产品算力可达 32TOPS,DRAM 带宽达 59GB/s,具有性能高、面积效率高、功耗低灵活性强的特点,FOStrip 先进封装工艺将芯片面积和厚度缩小至原来的 1/3。测试中,其计算机视觉和信号处理性能都较同类产品有较大提升,以 14nm 工艺达到甚至超越了英伟达 A100 芯片的功耗。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 珠海芯动力创始人兼 CEO 李原

亿铸科技创始人、董事长兼 CEO 熊大鹏认为,AI 芯片架构创新将开启大算力第二增长曲线。如今摩尔定律面临挑战,以计算单元为中心的已到达天花板,将来 AI 芯片一定是以存储单元为中心。

要突破有效算力的天花板有两个路径:芯片内,采用存算一体、先进封装技术,减少数据搬运、传输延迟;芯片间,采用高速互连和 Chiplet 技术、硅光子技术以及类似于 NVLink 及 NVSwitch 的互连技术,提供高带宽和低时延。

亿铸科技于 2023 年首次提出存算一体超异构架构,并致力于通过基于新型存储介质,提供高性价比,高能效比的 AI 大算力芯片。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 亿铸科技创始人、董事长兼 CEO 熊大鹏

时识科技创始人兼 CEO 乔宁谈道,类脑智能被认为是可以打破硅制程限制、解决算力瓶颈的未来技术之一。从生物脑获得启发的类脑感知、类脑计算,均比传统计算方式效能更高。生物系统通过累积性变化检测并转化为脉冲,以优化带宽使用,动态相机也采用类似原理,以低功耗方式捕捉光强变化。类脑计算芯片是基于脉冲做计算的系统,脉冲就是数字传输和计算的载体。

时识科技已经形成了事件相机(即类脑传感器)、类脑处理器、感算一体动态视觉智能 SoC 三大产品矩阵。类脑视觉目前最大的关注点是手机后摄的高帧率成像应用。DVS 事件相机通过模拟人类视网膜,在电路层面做出根本性改变,来突破全局快门对相机成像的帧率限制。通过对 DVS 事件相机数据做处理,可以达到等效高帧成像的效果。另外一个是 XR 领域眼动追踪,由于 DVS 只对光强变化作出反应,生成稀疏点云数据,具有超低功耗、高动态范围、超低延迟等优势,尤其超低功耗性能在眼动追踪领域领先。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 时识科技创始人兼 CEO 乔宁

随着数据量和算力的暴增与算法的提升,计算市场对可定制化、低成本、高安全性和高隐私性的需求日益提升。对此,2023 年成立的锋行致远致力于研发存算一体的边缘计算模组与解决方案,可实现大模型算力加速。据锋行致远创始人兼 CEO 孙唐分享,该公司已拥有面向 PC、工作站、服务器和分布式集群的各类存算一体产品。

锋行致远的产品整合了存储控制器与 AI 推理加速能力。其 SSD 内置算力,降低主机负载和整体功耗,也具备高保密性,可运用于 AI PC 加速、大模型推理加速、训推一体加速等场景;GPU 直通方案可实现对数据吞吐的加速达 50%-300%,更通过共享内存降低能耗。针对 AI 推理加速,其端到端应用平均效率超英伟达 NX 平台 2 倍,平均功效比存算分离方案提升 3.7 倍,还兼容多种框架。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 锋行致远创始人兼 CEO 孙唐

在 PhySim 资深产品工程师黄建伟看来,以先进封装技术为基础的 3D IC 和 Chiplet 技术,是后摩尔时代的必然选择。然而,SIP / 2.5D / 3D 等先进封装复杂的制造工艺和严苛的设计要求,会导致材料、设备、涉及开发的生产成本大幅增加,同时这些先进封装仍面临散热、制造工艺、成本上升等挑战,需要专门的仿真工具。

针对多物理场仿真场景,PhySim 自研了一体化解决方案,包括热仿真工具 TurboT、信号完整性仿真软件 ACEM、电源完整性仿真软件 Physim-ET 等产品,能够实现高性能 GPU 加速,实现数倍甚至数十倍的效率提升,帮助设计人员定位温度热点优化设计。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ PhySim 资深产品工程师黄建伟

AI 发展对芯片良率、延迟、高热问题提出更高要求,业界正在探索更有效的芯片互联技术,如分离 Computing Die 和 IO Die、降低 PCIe 等传统架构延迟、推动新标准支持 AI 应用。

UCIe 作为推动芯片之间高效通信的新标准应运而生。UCIe 提供了先进封装和标准封装两种解决方案,其中先进封装因具有兼容性和增加通道数有利于高速数据传输,适用于追求更高带宽的应用,标准封装密度较低适合产能受限的情况。

乾瞻科技产品高级总监曹泽豪透露道,目前他们已经在 5nm 和 4nm 的技术节点上面向大客户形成量产,3nm 已经回片,同时正在将 UCIe 1.1 和 1.0 版本向 2.0 版本迁移。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 乾瞻科技产品高级总监曹泽豪

三、加速边缘与端侧大模型落地,AI 芯片如何做出极致性价比?

在下午举行的边缘 / 端侧 AI 芯片专场,后摩智能联合创始人、产品副总裁信晓旭分享说,大模型已从“上新品”进入“强应用”阶段,中国的优势在应用创新,而应用创新的机会在边缘侧。目前 AI 芯片的痛点已经转变为内存访问效率低,存算一体架构凭借低成本、低功耗、低延时的优势,适配了边端侧 AI 的需求。

后摩智能一直在探索存算一体技术,过去 2 年推出并量产了基于首代“天枢”架构的 H30 和 M30 边端芯片,即使在落后一代工艺节点的情况下,能效比仍具有 2 倍的优势,这是存算一体架构带来的收益。

该公司已提供从芯片到终端的完整解决方案,信晓旭说,后摩新一代芯片将基于“天璇”架构,计算效率将提升 20%,对大语言模型 / 视觉语言模型、端边场景进行优化,更具易用性,明年就将问世。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 后摩智能联合创始人、产品副总裁信晓旭

随着大模型推动物理世界的智能化演进,更多的应用将在边缘侧完成。大模型使边缘 AI 场景面临新的算力挑战:算力需求大、带宽要求高、计算扩展性强。云天励飞副总裁、芯片业务线总经理李爱军谈道,国产工艺边缘 AI 芯片要应对挑战,架构创新是关键。

面向新的边缘 AI 计算场景,云天励飞研发国内首颗基于国产工艺 Chiplet 系列化边缘 AI 芯片,采用“算力积木”的理念,设计了 D2D Chiplet / C2C Mesh 大模型推理架构,从芯片设计、制程工艺、基板选择到封装测试均用国产技术,算力覆盖 8TOPS~256TOPS,满足大模型落地的个性化需求,可应用于各类边缘场景,并且工具链与软件栈统一,算法的部署落地更便捷。

他预告说,云天励飞后续将发布基于国产工艺的大模型边缘推理一体机,提供更有性价比的边缘算力。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 云天励飞副总裁、芯片业务线总经理李爱军

据安谋科技产品总监杨磊分享,边缘侧大模型部署的载体包括 AI 手机、AI PC、智能汽车、机器人等,鉴于这些设备对成本、功耗及散热的高度敏感性,100 亿参数规模以下的大模型被视为边缘侧部署的理想选择。为实现边缘侧部署的最高效率,异构计算方案脱颖而出,它能够充分挖掘并利用边缘侧设备的计算能力,从而达到性价比的最优化。

为了应对大模型在边缘侧部署的挑战,安谋科技自研新一代“周易”NPU 通过创新的计算单元微架构设计,能够同时支持卷积神经网络(CNN)和 Transformer 架构,在计算架构层面有效减轻了带宽需求,并增强了算力的可扩展性。此外,“周易”NPU 还能够通过多核扩展,实现更强大的计算能力,进一步提升了边缘侧大模型部署的灵活性和效能。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 安谋科技产品总监杨磊

智芯科从 2019 年开始研究基于 SRAM 的存算一体芯片,已有大量专利积累。智芯科创始人兼 CEO 顾渝骢认为,具身智能是其中最大的落地场景之一,具身智能对低延时、低功耗都有严苛的要求,因此有必要配备高能效的存算一体 AI 芯片。

存算一体芯片的主流技术路径包括 DRAM、SRAM、Flash、Emerging NVM 等。其中,SRAM 具有读写速度快、能效比高、工艺成熟和可集成性佳的优势,可快速无限次读写,很适合 Transformer 的自注意力机制。

智芯科基于 SRAM 的模数混合存内计算芯片,精度高、量产一致性高,并能够进一步降低功耗。硬件之外,智芯科还打造了通用性、易用性较强的软件生态。据顾渝骢透露,未来智芯科将推出面向具身智能感知到大算力边缘服务器的众多产品,覆盖大模型、机器人和自动驾驶等场景。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 智芯科创始人兼 CEO 顾渝骢

大模型认知智能已呈现初步的智能涌现,但很多都是单点的能力。聆思科技副总裁徐燕松强调了系统集成的重要性,对设备厂商而言,为大而全的 AI 单点能力找到中间态是主要命题。算法取决于场景,端侧模型的算法应用会重新定义 AI 芯片需求,因此需要将算法算力一体化。

聆思科技致力于打造智能终端人机交互入口芯片,进行了云-端-芯算法算力一体化布局,提供自主知识产权 AI 芯片、高性能 IoT 芯片,并以模组成本最优来设计芯片,能够以单芯片满足客户在性能、价格两方面的需求平衡。同时其端侧内置超 100 项行业顶级 AI 算法,还能直连 AI 云平台,与星火大模型形成联动。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 聆思科技副总裁徐燕松

近年来,随着智慧城市的推进,算法在公安、金融、安防及零售等多个领域的应用逐渐增多,基于此,极视角科技打造了算法商城。极视角科技联合创始人 & 高级副总裁刘若水谈道,在保证算法质量方面,极视角的优势是数据来源丰富、内部算法团队会提供底层算法能力、40 万开发者通过 PK 评测保障算法最优。

极视角科技已打造 AI 极星和 AI 极光平台。AI 极星平台有标准的算法部署、硬件配置的功能,支持统一算法接入标准,可以纳入符合接口规范的第三方算法,整个系统部署时间在 1 个小时左右;AI 极光则侧重于算法的轻量化部署。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 极视角科技联合创始人 & 高级副总裁刘若水

视海芯图创始人兼董事长许达文分享说,机器人需要同时运行感知、判定、决策和执行任务,对算力和能耗要求严苛,视觉语言模型更是带来了新的挑战。现在的机器人需要一款加速图像融合处理传统算法和 AI 算法的边缘端芯片。

机器人感知一方面作为 VLM 大模型的输入,另一方面为机器人 SLAM 建图及位姿估计。视海芯图推出了 SH1210 视觉芯片,整合了 CPU、NPU、ISP、3DCP、特征提取模块和多传感融合模块,让应用和算法能以最大化的利用率映射到硬件。

其图像融合架构实现了 ISP 每个处理步骤的可控,还可通过神经网络处理识别关键目标和区域,进行针对性的图像增强,实现能效提升。采用 SH1210 的 RGB-D 相机能够高效融合深度空间数据和 RGB 信息,完善机器人的视觉信息。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 视海芯图创始人兼董事长许达文

富瀚微资深市场总监冯晓光对边缘视频 AI 芯片进行复盘与展望。边缘视频 AI 芯片被设计用于摄像机、录像机等边缘设备,进行视频内容分析和处理。Transformer 将视频处理带入 2.0 时代,也为 AI 芯片带来新的架构变化。区别于传统的 CNN 网络,Transformer 大模型推理过程中的参数读取带来系统带宽需求,计算过程中的矩阵相乘则带来主动加速需求。

冯晓光认为,未来端侧 AI 芯片不会呈某一个架构的统一,而会呈金字塔形态。其中,0.5TOPS 以下算力的低端高性价比芯片,将覆盖 80% 以上的应用;支持轻量化 Transformer、AI ISP 的中端主流 AI 芯片主要是 NPU,算力 1~8TOPS;高端的边缘 AI 芯片可能以 GPGPU 架构为主,算力超 20TOPS,可运行边缘多模态大模型。

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单公布

▲ 富瀚微资深市场总监冯晓光

结语:AI 芯片企业承压前行

随着大模型革命席卷全球,算力需求达到新高,推动云边端 AI 芯片迭代与进化。在数据爆炸式增长、工艺逼近物理极限、国际形势复杂多变三朵乌云下,许多 AI 芯片企业低调务实地承压前行,积极备战生成式 AI 浪潮带来的时代机遇。

从 2018 年 3 月举办国内首场 AI 芯片产业峰会至今,七年来,除了 2021 年受疫情影响外,全球 AI 芯片峰会基本上保持每年一届的节奏,邀请近 150 位大咖分享前沿进展和行业洞见,成为了解国内外 AI 芯片发展动态的重要窗口,也是目前国内在 AI 芯片领域里最具影响力的行业峰会。

据智一科技联合创始人、CEO 龚伦常透露,智一科技旗下硬科技知识分享社区智猩猩将联合智能产业新媒体智东西、智能汽车产业新媒体车东西,11 月份在上海举行今年的第二场生成式 AI 大会,12 月份举办中国端到端自动驾驶峰会,欢迎参会交流。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知