首页

设置

日夜间

随系统

浅色

深色
主题色
黑色

首页 > 智能时代>人工智能

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

2025/1/10 14:54:18 来源：IT之家作者：沛霖（实习） 责编：沛霖

评论：

IT之家 1 月 10 日消息，银河通用昨日（1 月 9 日）宣布，联合北京智源人工智能研究院（BAAI）及北京大学和香港大学研究人员，发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

IT之家注：“具身智能”是指将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

据介绍，GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据，训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对，掌握泛化闭环抓取能力、达成基础模型。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

预训练后，模型可直接 Sim2Real（IT之家注：从模拟到现实）在未见过的、千变万化的真实场景和物体上零样本测试，官方宣称满足大多数产品的需求；而针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时形成符合产品需求的专业技能。

官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”：光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 光照泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 背景泛化，三倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 平面位置泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 空间高度泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 动作策略泛化，三倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 动态干扰泛化，二倍速播放

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

▲ 物体类别泛化，三倍速播放

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

相关文章

关键词：银河通用，具身智能

软媒旗下网站： IT之家最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件： 软媒手机APP应用魔方最会买要知