设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

「群体智能」剑指 AGI 革命!国产架构挑战 Transformer 霸权,首款非 Attention 模型更新

2024/9/30 11:18:45 来源:之家网站 作者:- 责编:-

通往 AGI 终极之路, 是什么?

这世界, 没有一个完整的定义, 也没有具体的答案。

此前曝出的 OpenAI 秘密路线图, 将通往 AGI 目标划分五级。

而「草莓」o1 模型出世, 代表着第二级已经实现。

李飞飞估值 10 亿美金独角兽 World Labs, 将「空间智能」看作通向 AGI 重要的桥梁。

他们计划打造出「大世界模型」(LWM), 通过对世界建模, 让 AI 在 3D 世界中去感知、去生成、去互动。

国内一家 AI 初创团队, 对此也有不同的看法。

他们认为,「群体智能」是迈向更广泛的通用人工智能的路线。未来, 世界每个设备都拥有自己的智能, 能够以类人的方式交互。

不过, 实现这一想法的前提是, 我们需要一个创新的算法架构。

值得一提的是, 这个团队却做了一件「反直觉」的事 —— 首创非 Transformer 独特路线。

基于全新架构, 他们打造的 Yan 系列模型已经植入到树莓派、机器人、AIPC 等终端设备中。

恰在 RockAI 开放日上, 多模态模型 Yan1.3 全面升级, 直接击败开源 Llama 3,「真端侧」最强大脑诞生了!

模型端到端, 秒级实时人机交互

全新迭代后的 Yan1.3, 支持从文本、音频、视觉输入, 并以语音、文本方式输出。

它模拟了人类复杂的感知系统, 既能听懂自然语言、看懂视觉信息, 也能通过语音方式表达。

可以说, 它是全球首个人机交互领域中, 端到端的多模态大模型。

凭借出色的架构设计,Yan1.3 模型在兼容性和性能, 取得了最优的表现, 从低算力到高算力全面覆盖。

在不同终端上的体验, 多模态 Yan1.3 更是实现了秒级实时响应。

在 CPU 上秒级响应,GPU 上更是有百毫秒级的人机交互, 体验非常丝滑赶超云端的大模型。

不如一起来看看,Yan1.3 在手机、PC、机器人、无人机上, 如何无损部署的。

低配 1500 元可跑, 真・AI 手机来了

在人手一台手机的时代, 搭载一个本地的大模型, 那才是真・AI 手机。

现场演示中, 离线部署 Yan1.3 3B 参数的手机, 直接断网, 上演了不用联网也能体验 LLM 的精彩一幕。

告诉语音助手 RockAI 自己的需求 —— 介绍一下上海。它在遵循指令后, 瞬间给出了关于上海的一些简单概要。

它还可以跨应用, 完成系统的调用。

让它打开相册, 并找出一张夕阳的照片。

RockAI 不仅准确找到了夕阳照片, 还给出了小红书的风格描述, 这种费脑的事儿, 它全部代劳了。

更惊艳的是, 告诉它今天是小明生日, 并帮自己为其送上祝福。

RockAI 直接进入短信界面, 自动生成编辑了一段内容, 你所做的就是点击「发送」了。

可见, 一个 30 亿参数离线模型, 同时具备了以文找图、以图生文,Agent、语音助手等能力, 强大到足以让人震撼。

在同等的手机硬件配置上,Yan1.3 模型相比 Transfomer 有 30% 的性能超越。

或许有的人会问, 能够运行这样的模型, 一定需要高配的手机。

RockAI 联创邹佳思称, 从低端¥1500 到中端¥3000 配置, 而且还只是 8G 运行内存, 都可以无损适配。

懂人话高效助手,AI PC 更便利

不仅如此, 在个人 PC 上, 业界早就掀起了 AI PC 的概念。

但若是没有在设备端完全部署模型,AI 能力的使用会严重受限。而且,AI PC 根本无法普及到大多数用户。

接下来, 这段现场演示中, 直接为 AI PC 掐断了网线。

上传一段主持人的天气预报音频, 然后 AI 智能助手将其实时转录成了文字。

转写完成后, 还能帮你立即总结出一份摘要。

另外, 每个人办公时均会遇到一个困扰,「xxx 图片」谁知道保存到了哪个文件夹。

现在, 这个烦恼完全可以打消了。

只要一句话,AI 智能助手就能直接帮你找到想要的那个图片。

而且, 它还可以支持以图搜图的方式。

这些功能的实现, 仅需要一台配备英特尔 Core i5 主机即可流畅运行。

四步成诗, 轻松拿捏新中式

Yan1.3 还在人形机器人上, 实现了离线运行。

我们都知道, 构成机器人最核心的三要素, 便是大脑、小脑、本体。

如果让一个冰冷的机械, 同时具备「看听说想动」的能力, 并基于已有的知识完成决策, 最后指挥肢体进行行动。

这样的前提, 一定是离不开大模型、分层控制算法的植入。

当你呼叫小苏小苏, 你看见了什么?

凭借强大的多模态认知能力, 它准确地描述出了当前周围的环境和布局。

另外,Yan1.3「大脑」控制的躯体, 还能完成各类高效复杂的任务。

现场, 让小苏吟诗一首 —— 关于冬天的七言绝句, 并在 4 步之内完成。

只见小苏一边走, 一边完成了绝美的创作。

寒风凌冽雪纷飞, 万物萧疏鸟自栖。唯有梅花凌雪放, 清香四溢满庭芳。

有趣的是, 当小苏吟诗后离拍摄者太近, 让它让一让。

只见, 憨态可掬的它向另一边慢慢踱步。

其实, 在今年世界人工智能大会上, 搭载 Yan 模型, 基于树莓派打造的胖虎机器人就亮相了。

它在现场七步成诗、咏春拳法等各种精彩演示, 吸引了一大波围观歪果仁观看。

城市巡检拍照, 无人机全包了

而在无人机方面, 搭载 Yan1.3 后的用法就更多了。

它不仅可以治安巡逻、交通巡检, 异常监控, 还可以当那个为你抓拍美照的「男友」。

当然了, 智能巡检这类任务, 对于一个城市管理来说非常重要。

植入离线模型的无人机, 可以从多方位感知环境, 快速识别图像信息, 自适应调整飞行高度。

它可以搭配手机, 完成「端」和「端」的互联操作。

交通巡检过程中, 它可以智能识别违规车辆, 并将信息传送到手机上。

当你自拍找不到满意角度, 直呼「飞龙, 给我拍一张氛围感满满的照片」。它一跃升天, 拍下了多种角度的照片, 通过对照片的多维度评分, 还贴心地帮你选好了最美瞬间。

可见, 全新升级的 Yan1.3 已经赋予了每个端侧设备「灵魂」。

它不仅在无人机、机器人、PC、手机等终端设备中, 丝滑适配, 而且模型智能能力迎来了全新升级。

无需阉割模型, 让端侧设备具备了完整性、可持续性。

这种类人的输入输出过程, 不仅大幅地提升人机交互的质量, 还为未来教育、医疗等行业开辟了更广阔的应用场景。

当一个最强端侧完成进化, 那么一群最强端侧协作, 能够实现什么?

简言之, 群体智能。

群体智能, 怎么实现?

其实, 群体智能, 很早就存在于生物界。

蚁群会一起搬运食物、搭建蚁巢; 蜜蜂会各司其职, 协作维护蜂巢; 狼群结队, 捕获猎物等等。

这些都是, 生物界群体智能的体现。

纵观生物界的发展, 能够得出一个基本规律 —— 个体智能化程度越高, 群体智能的表现力越强。

就像人类一样, 我们的群体智能, 所表达出的文明程度远远高于蚁群、蜂群、狼群.......

从中汲取灵感, 人工智能也会有「群体智能」。

单元大模型的智慧, 能够反哺整个大模型群体, 进而让 AI 群体更聪明、更智能。

或许你会说, 其实国外很多研究, 早就通过多个智能体协作, 实现了高性能群体智能。

其实不然, 它们之间有着本质的区别。

智能体本身, 存在一个很大缺陷 —— 不具备自主学习能力。

而且, 智能体之间的协作, 也是一个很小范围的协作。

究其根本, 是因为基于 Transformer 架构大模型搭建的智能体, 实现自我训练非常困难。

群体智能中最核心的要素便是个体, 也就是「端」。

而基于 Transformer 架构的模型, 若想在端上运行、并自主学习, 根本不可行。

因为模型通常会被量化裁剪压缩之后, 才会植入端设备。而被阉割之后的模型, 就不再具备学习能力。

那该如何破解?

为了实现群体智能,RockAI 经过多年的技术沉淀, 独创了不同于 Transformer 的 MCSD 架构, 并且提出了「类脑激活」机制。

这条路线, 与 OpenAI、World Labs 有着本质区别, 是国产公司在 AGI 前沿另辟蹊径的尝试。

Transformer 不是唯一路径

当前的现状是, 大模型领域早已呈现出 Transformer「一家独大」的格局。

用 AI 大神 Karpathy 的话说: 最先进的 GenAI 模型, 要么是自回归训练, 要么是扩散训练, 底层的神经网络通常都是 Transformer 架构。

虽然 Transformer 自身有许多优秀的特质, 但不可否认, 这仍不是一个百分百完美的架构。

甚至, 有很多业界 AI 大佬已经看到了其中的巨大弊端。

首当其冲的, 就是被诟病已久的幻觉问题。

Yann LeCun 认为,LLM 的幻觉根源于当前所使用的自回归 Transformer 架构。

「幻觉问题是自回归 LLM 架构特有的」「自回归 LLM 会产生幻觉… 幻觉是自回归生成的本质缺陷」

这种架构上的本质缺陷, 注定了有一天我们要走出 Transformer 生态, 就像曾经 90 年代末走出 SVM 生态、3 年前走出 BERT 生态一样。

就连提出 Transformer 核心架构作者之一 Aidan Gomez 认为, 这世间需要比 Transformer 更好的东西, 希望将其取代, 把我们带向更高的性能高地。

「现在使用了太多计算资源, 做了很多浪费的计算」

部署方面, 基于 Transformer 架构模型对终端设备运行内存、储存空间提出了更高要求, 同时压缩后的模型, 在实际推理上大打折扣。

能源方面, 今年 3 月, 马斯克表示,2025 年 AI 将耗尽电力和变压器, 用他的话来说,「很讽刺的是, 我们需要 transformers (变压器) 来运行 transformers (模型)。」

很明显, 无论是从减少幻觉、推动技术进步的角度, 还是从环境保护、促进 GenAI 发展可持续的角度, 我们都急需一种能够跳出 Transformer「思维圈」的新架构诞生。

国内首个非 Attention 机制

RockAI 首次提出的 MCSD (Multi-Channel Slope and Decay) 架构就是跳出 Transformer 路线的一次绝佳尝试。

而 MCSD 最大的特点, 便是替换了 Transformer 架构中的注意力机制。

随着序列长度的增加,Transformer 架构对计算资源的消耗呈现 O (N^2) 增长, 相比之下,MCSD 实现了线性扩展, 而且推理速度更快, 将空间和时间复杂度分别降低到了 O (1) 和 O (N)。

直白讲,MCSD 全新架构能够将算力消耗降至更低。

也就意味着, 基于此架构打造的模型, 在端侧设备上运行有了新的可能。

论文地址:https://arxiv.org/abs/2406.12230

MCSD 的具体架构如图 1 所示, 由嵌入层和 N 个相同的组合层堆叠而成, 每个组合层中由两个残差连接分别封装 MCSD 块和门控 MLP 块, 两者都前置一个 RMS 归一化模块, 并使用 GeLU 作为激活函数。

MCSD 块的内部结构如图 1 (右) 所示, 集成了 slope 部分和 decay 部分, 分别通过不同的预定义矩阵捕捉局部和全局特征。

两个部分均采用了双分支设计, 一个分支负责进行线性投影, 另一个通过聚合前面 token 的上下文信息来提取多通道历史特征, 之后两个分支进行扰动 (perturbation) 操作。

slope 和 decay 部分主要存在两方面的区别, 一是预定义权重不同, 因此在提取历史信息时对上下文的感知能力不同, 前者更注重短程上下文, 后者则更关注全局上下文。

将 slope 和 decay 两部分的输出进行拼接后就得到了 MCSD 块的输出, 这两者的组合使得模型既能关注到距离更近的历史信息, 也不会丢失更远的长距离上下文, 从而同时增强了局部和全局的特征提取。

此外, 论文还提出通过递归形式简化推理计算, 将推理所用的空间和时间复杂度分别降低至 O (1) 和 O (N), 显著压缩了所需算力。

实验数据显示, 随着序列逐步变长,KV 缓存的存在让 Transformer 推理的内存成本呈线性增加; 相比之下, 即使是 8k 的长序列,MCSD 消耗的 GPU 内存也几乎不变。

给定序列长度后, 随着批大小的增加,Transformer 的延迟也会显著增加, 而 MCSD 的延迟则依旧十分稳定。

此外, 有相同批大小或序列长度时,MCSD 的吞吐量性能也远远好于 Transformer 架构。

除了大大节约吞吐量、延迟、内存消耗等方面的成本,MCSD 还在基准测试上有更佳的性能。

类脑激活机制

基于 MCSD 架构,RockAI 实现了能在「端侧」运行群体智能单元大模型。

但这并不代表着, 能够在更多端侧上实现最优性能。

因此,RockAI 还在 Yan 系列模型中采用了独创的「类脑激活」机制, 实现基于仿生神经元驱动的选择算法。

在主流的神经网络中, 每次推理都需要激活全部神经元, 这会导致大量算力浪费。

而人脑的运作并非如此。

不同的大脑区域负责不同的认知功能, 因此不同的执行不同的任务只会造成一部分脑神经元的激活, 而且激活的区域也各有不同。

比如开车时, 视觉皮层会更加活跃; 而写作时, 掌管记忆或逻辑的脑区激活程度更高。这也许就是为什么, 相比调动每个处理单元的计算机, 大脑明显更加「节能」。

因此, 模拟大脑中的神经元激活模式, 可以让神经网络更加高效地处理复杂数据和任务, 从而显著提升计算效率和精度。

通过以上两种方式结合, 一是用 MCSD 替换注意力机制, 而是通过选择性神经元计算, 带了极致低算力消耗。

正是基于如此强大的「双机制」,RockAI 在今年 1 月发布了国内首个非 Transformer 架构的大模型 Yan 1.0。

随之 7 月, 发布了国内首个终端多模态大模型 Yan 1.2。

经过几次迭代, 目前已经升级为端到端的多模态 Yan 1.3, 代表着迈向群体智能的新起点, 是群体智能的单元大模型。

厚积薄发, 终极目标迈向群体智能

要实现 AI 的群体智能, 并不是一件简单的事, 提出 MCSD 架构和「类脑激活」机制, 只是一个开始。

为了达到群体智能,RockAI 将这个大目标分解为 4 个阶段的子目标, 一步步稳扎稳打。

目前, 他们已经跨越了第一级, 正在完成第二级的跃升。

创新基础架构, 是要跳出 Transformer 的既定路线, 旨在实现模型性能效率的跨越式发展;

多元化硬件生态, 则是模型部署落地的根本保证, 只有适配多终端、多厂商、多型号的硬件, 形成成熟的生态, 才能为群体智能创造实现条件。

随着 Yan 1.3 模型的发布和广泛部署适配, 意味着前两个阶段的目标已经基本实现。

从 Yan 1.0 到 Yan 1.3, 不仅覆盖了更多设备, 还实现了端到端的多模态支持。

输入输出形式包含了文本、语音、视觉在内的多模态, 不但大大方便人机交互, 还能让多个 AI 模型之间更灵活地交流同步。

下一步,RockAI 将继续发布 Yan2.0, 继续强化模型的自主学习、自我优化能力, 让 AI 更好地和真实的物理世界交互。

在 Yan 系列智慧生态的基础上, 持续的群体进化将成为可能, 最终绘制出「群体智能」的未来蓝图。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知