阶跃星辰连发六款基座模型：多模态理解、视频生成、语音能力全面升级

2025/1/23 11:28:22 来源：之家网站作者：- 责编：-

评论：

1 月 23 日，据阶跃星辰公众号消息，该公司发布了新版视频生成模型 ——Step-Video V2，距离发布上一个版本仅不到 2 个月。升级后的 Step-Video V2 参数量更大，基于在 VAE 模型、DiT 架构与强化学习、以及多模态大模型与视频知识库应用上的自研技术创新，Step-Video V2 在语义理解、指令遵循、复杂运动、视觉想象力、基础文字生成等方面的生成效果都有大幅度提升。

据统计，这已经是阶跃星辰最近一周内发布的第六款基座模型。此前，该公司还发布了 Step R-mini 推理模型、Step-1o Audio 端到端语音模型升级版、Step-1o vision 多模态理解模型等。值得关注的是，Step-1o 刚拿下国内权威大模型评测机构 OpenCompass 多模态实时榜第一名，随即位列 Lmsys Org 1 月新发布大模型竞技场视觉榜单中国大模型 Top 1。

此外，阶跃星辰继续巩固了语言模型领域的强势地位。万亿参数语言大模型 Step-2 推出分支模型，Step-2 文学大师专攻内容创作场景，针对古诗词、小说、新媒体文案等各种文字题材输出优质内容。而 Step-2 mini 是一款轻量级模型，以 3% 左右的参数量保有了 Step-2 模型 80% 以上的模型性能，且具有更高的性价比。

据媒体报道，上个月阶跃星辰刚结束数亿美金 B 轮融资，投资方包括上海国有资本投资有限公司及其旗下基金，战略与财务投资人包括腾讯投资、五源资本、启明创投等。据接近阶跃的人士透露，这笔融资将被用于继续投入基础模型研发，强化多模态和复杂推理能力，并通过产品和生态加大覆盖 C 端应用场景，提供丰富的用户体验。

因此这一轮集中发布也被视为阶跃星辰拿到新融资后，开足马力交出的第一份成绩单。从近期的产品更新来看，阶跃的语音模型已经实现了理解生成一体化，新上线的推理模型也融入多模态视觉推理，或将在今年全力冲刺多模态理解生成一体化。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

阶跃星辰连发六款基座模型：多模态理解、视频生成、语音能力全面升级

相关文章