一条神秘磁力链接引爆整个 AI 圈,现在,正式测评结果终于来了:
首个开源 MoE 大模型 Mixtral 8x7B,已经达到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。
(对,就是传闻中 GPT-4 的同款方案。)
并且由于是稀疏模型,处理每个 token 仅用了 12.9B 参数就做到了这般成绩,其推理速度和成本也与 12.9B 的密集模型相当。
消息一出,再次在社交媒体上掀起讨论热潮。
OpenAI 创始成员 Andrej Karpathy 第一时间赶到现场整理起了笔记,还高亮出了重点:这家“欧版 OpenAI”透露出的最强模型,还只是“中杯”。
p.s. Mixtral 8×7B 甚至只是小杯……
英伟达 AI 科学家 Jim Fan 则赞说:
每个月都会有十几个新的模型冒出来,但真正能经得住检验的却寥寥无几,能引发大家伙热烈关注的就更少了。
并且这波啊,不仅是模型背后公司 Mistral AI 大受关注,也带动 MoE(Mixture of Experts)再次成为开源 AI 社区的最火议题。
HuggingFace 官方就趁热发布了一篇 MoE 的解析博文,同样打出了“转发如潮”的效果。
值得关注的是,Mistral AI 的最新估值已经冲破 20 亿美元,在短短 6 个月中增长了 7 倍多……
基本超越 Llama 2 70B
说起来,Mistral AI 这家公司也是不走寻常路。隔壁大厂前脚刚轰轰烈烈搞发布会,慢慢悠悠发模型,他们可倒好,直接来了个程序颠倒:
先甩链接开放下载,又给 vLLM 项目(一个大模型推理加速工具)提了 PR,最后才想起来发布技术博客给自家模型整了个正经官宣。
△ 模型一开始是酱婶发布的
那么还是先来看看,官方给出了哪些信息,与这两天吃瓜群众自己扒出来的细节有何不同。
首先,官方自信地表示:
Mixtral 8×7B 在大多数基准测试中都优于 Llama 2 70B,推理速度快了 6 倍。
它是最强大的、具有宽松许可的开放权重模型,也是最佳性价比之选。
具体来说,Mixtral 采用了稀疏混合专家网络,是一个 decoder-only 的模型。在其中,前馈块会从 8 组不同的参数组中进行选择 ——
也就是说,实际上,Mixtral 8×7B 并不是 8 个 7B 参数模型的集合,仅仅是 Transformer 中的前馈块有不同的 8 份。
这也就是为什么 Mixtral 的参数量并不是 56B,而是 46.7B。
其特点包括以下几个方面:
在大多数基准测试中表现优于 Llama 2 70B,甚至足以击败 GPT-3.5
上下文窗口为 32k
可以处理英语、法语、意大利语、德语和西班牙语
在代码生成方面表现优异
遵循 Apache 2.0 许可(免费商用)
具体测试结果如下:
另外,在幻觉问题方面,Mixtral 的表现也优于 Llama 2 70B:
在 TruthfulQA 基准上的成绩是 73.9% vs 50.2%;在 BBQ 基准上呈现更少的偏见;在 BOLD 上,Mixtral 显示出比 Llama 2 更积极的情绪。
此次与 Mixtral 8×7B 基础版本一起发布的,还有 Mixtral 8x7B Instruct 版本。后者经过 SFT 和 DPO 优化,在 MT-Bench 上拿到了 8.3 的分数,跟 GPT-3.5 差不多,优于其他开源大模型。
目前,Mistral 官方已经宣布上线 API 服务,不过还是邀请制,未受邀用户需要排队等待。
值得关注的是,API 分为三个版本:
小小杯(Mistral-tiny),对应模型是 Mistral 7B Instruct;
小杯(Mistral-small),对应模型是这次发布的 Mixtral 8×7B;
中杯(Mistral-medium),对应的模型尚未公布,但官方透露其在 MT-Bench 上的得分为 8.6 分。
有网友直接把 GPT-4 拉过来对比了一下。可以看到,中杯模型在 WinoGrande(常识推理基准)上的得分超过了 GPT-4。
价格方面,小小杯到中杯的输入和输出价格分别是每一百万 token0.14~2.5 欧元和 0.42~7.5 欧元不等,嵌入模型则是 0.1 欧元每百万 token(1 欧元约合 7.7 人民币)。
而在线版本,目前还只能到第三方平台(Poe、HuggingFace 等)体验。
能看懂中文,但不太愿意说
虽然官方通告中并没有说支持中文,但我们实测(HuggingFace Chat 中的在线版,模型为 Instruct 版本)发现,Mixtral 至少在理解层面上已经具备一定中文能力了。
生成层面上,Mixtral 不太倾向于用中文来回答,但如果指明的话也能得到中文回复,不过还是有些中英混杂的情况。
面对更多的“弱智吧”问题,Mixtral 的回答虽中规中矩,但看上去至少已经理解了字面含义。
数学方面,面对经典的鸡兔同笼问题,Mixtral 的回答从过程到结果都完全正确。
即使是高等数学问题,比如复杂的函数求导,Mixtral 也能给出正确答案,更难能可贵的是过程没什么问题。
而此次的官方通告中专门强调了 Mixtral 的代码能力很强,所以也受到了我们的重点考察。
一道困难难度的 LeetCode 下来,Mixtral 给出的代码一次就通过了测试。
给你一个未排序的整数数组 nums,请你找出其中没有出现的最小的正整数。
请你实现时间复杂度为 O (n) 并且只使用常数级别额外空间的解决方案。
但随着我们继续提问,Mixtral 的回答一不小心暴露了自己可能专门针对 LeetCode 做过训练,而且还是中文版 LC。
为了更加真实地展示 Mixtral 的代码能力,我们转而让它编写实用程序 —— 用 JS 写一个 Web 版计算器。
经过几轮调整之后,虽然按钮的布局有些奇怪,但基本的四则运算已经可以完成了。
此外我们会发现,如果在同一个对话窗口中不断补充新的要求,Mixtral 的表现可能会有所下降,出现代码格式混乱等问题,开启新一轮对话后则会恢复正常。
除了 API 和在线版本,Mistral AI 还提供了模型下载服务,可以用𝕏上的磁力链接或通过 Hugging Face 下载之后在本地部署。
在𝕏上,已经有不少网友在自己的设备上跑起了 Mixtral,还给出了性能数据。
在 128GB 内存的苹果 M3 Max 设备上,使用 16 位浮点精度运行 Mixtral 时消耗了 87GB 显存,每秒可以跑 13 个 token。
同时也有网友在 M2 Ultra 上通过 llama.cpp 跑出了每秒 52token 的速度。
看到这里,你会给 Mistral AI 的模型实力打几分?
不少网友是已经兴奋起来了:
“OpenAI 没有护城河”,看起来肯定会成为现实……
要知道,Mistral AI 今年 5 月才刚刚成立。
短短半年,已是一手 20 亿美元估值,一手惊艳整个 AI 社区的模型。
更关键的是,普林斯顿博士生 Tianle Cai 分析了 Mistral-7B 与 Mixtral-8x7B 模型的权重相关性做了分析,证明了模型的成功复用。
随后网友发现,Mistral AI 创始人也亲自证实,MoE 模型确实就是把 7B 基础模型复制 8 次,再进一步训练来的。
随着此类模型的免费商用,整个开源社区、新的创业公司都可以在此基础之上推动 MoE 大模型的发展,就像 Llama 已然带动的风暴那样。
作为吃瓜群众,只能说:
参考链接:
[1]https://mistral.ai/news/mixtral-of-experts/
[2]https://mistral.ai/news/la-plateforme/
[3]https://huggingface.co/blog/mixtral#about-the-name
本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西 鱼羊
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。