首页

设置

日夜间

随系统

浅色

深色
主题色
黑色

首页 > 智能时代>人工智能

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

2024/12/16 12:43:22 来源：IT之家作者：沛霖（实习） 责编：沛霖

评论：

IT之家 12 月 16 日消息，无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

官方表示，Megrez-3B-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的处理能力：

在图像理解方面，Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

在文本理解方面，Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro、AlignBench 等多个权威测试集上取得端上模型最优精度。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

在语音理解方面，Megrez-3B-Omni 支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，也能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

官方宣称，与上一代及其他端侧大语言模型相比，单模态版本的 Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型 300%。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

IT之家附相关链接如下：

Github：https://github.com/infinigence/Infini-Megrez
HuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI 异构云：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
Modelers：https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni
ModelScope：https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

相关文章

关键词：无问芯穹，开源

软媒旗下网站： IT之家最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件： 软媒手机APP应用魔方最会买要知