微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

2025/2/26 8:35:15 来源：IT之家作者：清源责编：清源

评论：

感谢IT之家网友 zhao_31 的线索投递！

IT之家 2 月 26 日消息，北京时间今日凌晨，微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比，Magma 具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，此外，Magma 还能内置了心理预测功能，增强了对未来视频帧中时空动态的理解能力，能够准确推测视频中人物或物体的意图和未来行为。

用户可以用 Magma 来自动下电商订单、查询天气；也可以自动操作实体机器人，或者在下真实象棋时获得帮助。

根据官方介绍，Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如，它可以帮助家用机器人学习如何整理以前从未见过的物品，或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明。

Magma 是能够适应数字和物理环境中新任务的 VLA（IT之家注：视觉语言动作）基础模型之一，能够有效地从海量的公开视觉和语言数据中学习知识，从而融合语言、空间和时间智能，应对数字和物理世界中的复杂任务和环境。

IT之家附开源链接：https://microsoft.github.io/Magma/

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

相关文章