IT之家 3 月 5 日消息,全球机器人领域顶会 ICRA 2025(IEEE 机器人与自动化国际会议)日前公布了论文录用结果,地瓜机器人主导研发的 DOSOD 开放词汇目标检测算法与 MODEST 单目透明物体抓取算法成功入选。
作为机器人执行各项任务中绕不开的操作对象,水杯、试管、窗户等透明物体在人类生活中无处不在。然而,透明物体复杂的折射和反射特性给机器人感知造成了很大困难。在大多数 RGB 图像中的透明物体往往缺乏清晰的纹理,而容易与背景混为一体。此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而限制了机器人在多个领域的广泛应用。
为了解决透明物体的抓取问题,地瓜机器人联合中科院自动化所(简称:CASIA)多模态人工智能系统全国重点实验室,推出了针对透明物体的单目深度估计和语义分割的多任务框架(简称:MODEST)。该框架借助创新性的语义和几何融合模块,结合独特的特征迭代更新策略,提升了深度估计和语义分割的效果,尤其在抓取成功率和系统泛化性方面取得了突破性进展。
MODEST 算法框架作为通用抓取模型的前置模块,即插即用,且无需依赖额外传感器,仅靠单张 RGB 图像,便可实现透明物体的抓取,效果上甚至要优于其它双目和多视图的方法,可以应用于智能工厂、实验室自动化、智慧家居等场景,降低设备成本并提升机器人对透明物体的操作能力。
MODEST 主要聚焦于透明物体的深度估计,通过设计的语义和几何结合的多任务框架,获取物体准确的深度信息,之后结合基于点云的抓取网络实现透明物体的抓取。相当于在通用抓取网络前面增加一个针对透明物体的增强模块。
MODEST 模型的整体架构如图所示,输入为单目 RGB 图像,输出为透明物体的分割结果和场景深度预测。网络主要由编码、重组、语义几何融合和迭代解码四个模块组成。输入图像首先经过基于 ViT 的编码模块进行处理,随后重组为对应分割和深度两个分支的多尺度特征。在融合模块中对两组特征进行混合和增强,最后通过多次迭代逐步更新特征,并获得最终预测结果。
地瓜机器人将算法迁移到真实机器人平台,开展了透明物体抓取实验。平台主要由 UR 机械臂和深度相机构成,在借助 MODEST 方法进行透明物体精确感知的基础之上,采用 GraspNet 进行抓取位姿的生成。在多个透明物体上的实验结果表明,MODEST 方法在真实平台上具有良好的鲁棒性和泛化性(IT之家注:鲁棒性是指系统在面对内部结构或外部环境变化时,仍能保持其功能稳定运行的能力)。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。