IT之家 1 月 10 日消息,阿里旗下通义万相宣布推出 2.1 版本模型升级,视频生成、图像生成两大能力均有显著提升。
在视频生成方面,通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力,支持无限长 1080P 视频的高效编解码,首次实现了中文文字视频生成功能,登上 VBench 榜单第一。
据介绍,通义万相 2.1 支持中英文视频,都可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等等。
IT之家注意到,通义万相 2.1 还支持复杂运镜,可还原碰撞、反弹、切割、挤压等真实世界的物理规律,例如雨滴落在伞上会溅起水花。
图片生成方面,通义万相 2.1 支持文生组图,采用了 IC-LoRA 图像生成训练方法,利用 DiT 架构,增强文本到图像的上下文能力;对多张图像进行拼接与联合描述即可实现关联图像间的组合生成,并保持特征稳定连续。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。