日月开新元,万象启新篇。
1 月 15 日,MiniMax 发布并开源新一代 01 系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破 Transformer 传统架构记忆瓶颈,在综合性能比肩 GPT-4o、Claude-3.5 等海外领军模型的基础上,能够高效处理高达 400 万 token 的输入,可输入长度是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。
目前,MiniMax-01 系列开源模型已应用于 MiniMax 旗下产品海螺 AI 并在全球上线,企业与个人开发者可前往 MiniMax 开放平台使用 API。
以架构创新实现高效超长文本输入
2017 年,具有里程碑意义的论文《Attention Is All You Need》正式发表,Transformer 架构问世并逐步发展成为该领域的主流技术范式。自 2023 年起,自然语言处理领域迎来了一股创新浪潮,对模型架构的创新需求日益增加。
MiniMax-01 系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从 Scaling Law、与 MoE 的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax 选择模型参数量为 4560 亿,其中每次激活 459 亿,能够高效处理高达 400 万 token 的上下文,将有效替代 Transformer 传统架构并开启超长文本输入时代。
MiniMax-01 模型发布后,在国内外迅速掀起了热议浪潮。海外媒体与 AI 从业者聚焦该模型,深入探讨其技术内涵与潜在价值,对其所展现出的创新性给予了高度肯定。
性能比肩国际领军模型
在应用创新架构之外,MiniMax 大规模重构了 01 系列模型的训练和推理系统,包括更高效的 MoE All-to-all 通讯优化、更长的序列的优化,以及推线性注意力层的高效 Kernel 实现,使得模型能力可与全球顶级闭源模型相媲美。
在业界主流的文本和多模态理解任务处理表现上,MiniMax-01 系列模型大多情况下可以追平海外公认最先进的两个模型,GPT-4o-1120 以及 Claude-3.5-sonnet-1022。过往的模型能力评测中,Google 的自研模型 Gemini 有着显著的长文优势。而在 01 系列模型参评的长文任务下,相较于 Gemini 等一众全球顶级模型,MiniMax-01 随着输入长度变长,性能衰减最慢,效果及其出众。
▲ 多项任务评测结果显示,MiniMax-01 系列模型核心性能稳居全球第一梯队。(图源 MiniMax-01 系列模型技术报告)
▲ MiniMax-01 系列模型长上下文处理能力全球领先。(图源 MiniMax-01 系列模型技术报告)
▲ MiniMax-01 系列模型长上下文处理能力在 LongBench V2 第三方评测成绩仅次于 OpenAI 的 o1-preview 和人类。(注:LongBench V2 是面向现实情景,进行长上下文多任务深入理解和推理的测试集。)
加速 AI Agent 时代到来
2025 年,AI 将迎来至关重要的发展节点,AI Agent 有望成为新一年最重要的产品形态,引领 AI 从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent 时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是 AI Agent 为各行业带来更为丰富、高效、智能的解决方案的必要条件。
MiniMax 在 Github 上开源了 Text-01 模型、VL-01 模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax 创始人、CEO 闫俊杰表示,“这是我们第一个开源系列模型。我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化,做得好的地方有鼓励,不好的地方会有很多批评,外面的人也会有贡献,这是我们开源的最大驱动力。”
凭借开放、共享、协作的特点,开源模型激发 AI 产业的创新活力,正在成为赋能新质生产力发展的关键引擎。受益于 Linear Attention 层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax 以业内极具性价比的价格提供文本模型和多模态理解模型的 API 服务,标准定价是输入 token 1 元 / 百万 token,输出 token 8 元 / 百万 token。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。