IT之家 1 月 16 日消息,面壁智能公众号今日宣布推出“小钢炮”MiniCPM-o 2.6 端侧全模态模型,参数为 8B,号称性能比肩 GPT-4o、Claude-3.5-Sonnet。
其采用了端到端多模态架构,可同时处理文本、图像、音频和视频等多种类型的数据,生成高质量文本和语音输出。官方表示,其总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。
MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感 / 语速 / 风格控制、端到端声音克隆、角色扮演等进阶能力。
据官方介绍,MiniCPM-o 2.6 也是首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。其在 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 70.2,以 8B 量级的大小在单图理解方面超越了 GPT-4o-202405、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
IT之家附开源地址:
GitHub:https://github.com/OpenBMB/MiniCPM-o
huggingface:https://huggingface.co/openbmb/MiniCPM-o-2_6
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。