Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

量子位 2024/8/13 13:29:03 责编：汪淼

评论：

只是换掉 Transformer 架构，立马性能全方位提升，问鼎同规模开源模型！

~~（注意力机制不存在了）~~

这就是最新 Falcon Mamba 7B 模型。

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。

通过取消传统注意力机制，有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列，但内存需求不增加。无论上下文多长，生成每个 token 的时间基本一样。

由此，Falcon Mamba 模型性能全方位提升，打败一众 Transformer 架构模型，如 Llama-3.1（8B）、Mistral（7B）以及 Falcon-2（11B）。

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

如上成果由阿联酋阿布扎比技术创新研究所（TII）带来，他们正是 Falcon 模型的开发团队。

该系列共包含四个模型：基础版本、指令微调版本、4bit 版本和指令微调 4bit 版本。

最新模型遵循 TII Falcon License 2.0 开放协议，它在 Apache 2.0 协议下。围观网友直呼：游戏规则要改变了！

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

全球首个开源 SSLM

在性能上，Falcon Mamba 7B 全方位超越一众开源模型。

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

它基于第一代 Mamba。

Mamba 是一种状态空间模型（SSM，State Space Model）。它结合了 RNN 和 CNN 的特点，通过引入一种选择机制，它允许模型根据当前的输入有选择地传播或忘记信息，从而提高处理文本信息的效率。

同时，它设计了一种硬件感知的并行算法，以递归模式运行，避免了 GPU 内存层级之间 IO 访问，提高计算效率。

最后它还简化了架构，将 SSM 架构和 Transformer 中的 MLP 块结合为单一的块。

从 Transformer 换到 Mamba，能够让 Falcon 模型可以处理任意长序列，但无需增加内存。尤其适合单个 A10 24GB GPU。

研究还讨论了两种不同的处理序列方法。

并行预填充方法适用于 GPU 并行处理，对内存需求较高；顺序填充方法适用于 SSM 模型，可以处理任意长度序列，从而不会受到内存限制。

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

为了确保大规模训练稳定，Falcon Mamba 模型使用了额外的 RMS 标准化层。

RMS 标准化层能够简化 LayerNorm 的计算过程，可减少计算量。

模型使用了 5500GT 数据训练，这些数据主要来自 RefedWeb 数据集以及公开数据。训练过程基本匀速，在训练后期增加了一小部分高质量策划数据，这有助于模型在最后阶段的优化。

在 H100 上，批大小为 1、提示词长度为 1-130k 生成 token 的测试中，Falcon Mamba 能够在生成新 token 时保持稳定的吞吐量，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降情况。

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

Falcon Mamba 支持多种 Hugging Face API，包括 AutoModelForCausalLM、pipline。还推出了一个指令调优版本，通过额外 50 亿个 token 进行微调，可以让模型准确性更高。

在 Hugging Face、GitHub 上都可访问最新模型~

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏，原标题《换掉 Transformer，7B 开源模型立刻登顶！任意长序列都能处理》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。