昨晚,阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini。这款模型支持图文输入,文字输出,有良好的指令遵循和通用能力,能够高精度感知图像并完成复杂推理任务。目前,用户已经可以在阶跃 AI 网页端体验 Step-R1-V-Mini ,且阶跃星辰开放平台已面向开发者推出该模型的 API 接口。
根据阶跃星辰介绍,Step-R1-V-Mini 具有超强的感知能力和推理能力,能精准捕捉画面中的各种细节,并基于用户指令进行深度推理,用户也可以清晰地看到 Step-R1-V-Mini 的思维链路。比如上传一张家常菜照片并询问菜品做法,模型可以清晰地识别出加工前使用的菜品、蘸料,并给出细致到“虾仁 300g、大葱白 2 根”的操作方式。
Step-R1-V-Mini 的模型性能在多个公开基准评测榜单中表现亮眼,在 MathVision 等视觉推理榜单中位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。
公开资料显示,此前阶跃星辰已先后推出多模态理解模型 Step-1V、Step-1.5V,以及语言推理模型 Step-R-mini。在 LMSYS、OpenCompass 等国内外权威基准评测榜上,阶跃星辰多模态理解模型性能持续领先。此前,阶跃星辰创始人、CEO 姜大昕曾表示多模态和推理是 Agent 两大必备要素,2025 年该公司将重点发力智能终端 Agent。Step-R1-V-Mini 的推出被认为是阶跃今年推进战略主线的最新进展。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。